Сетка сплогов из уника, спижженого из вконтакте, часть 1
Года три назад у меня была мегаидея, которую я благополучно профейлил. Идея была заработать на блогуне, как это ни банально звучит.
Схема была такая.
- Уник
Парсим заметки пользователей вконтакте через поиск среди заметок, убираем весь хлам типа анекдотов, стихов и пр. посредством хитрого анализа, убираем нечеткие дубли посредством шинглов, убираем заметки меньше 300 и больше 3000 знаков. В итоге у нас остается выжимка из неких текстов, доля уникальности которых довольно высока. На тот момент вконтактик был полностью закрыт и неиндексируем ПС. Также, на тот момент не было сервисов, предоставляющих услугу определения процента уникальности контента, поэтому уникальность не проверялась. - Площадки
Покупаем освободившиеся акки в ЖЖ с тИЦем в 10-20-30 (продает сам ЖЖ, стоило тогда 15$), настраиваем автопостинг туда уника. Через пару-тройку месяцев добавляем площадки в блогун. - Блогун
Настраиваем блогун принимать все заявки, берем все дешевые и говно-задания. Парсим блогун, тянем оттуда ссылки для размещения в блогах с периодичностью раз в сутки. - Магия
Собираем все вместе. В момент автопостинга проверяем, есть ли новые ссылки от блогуна для данного сплога, если есть добавляем к унику вниз постовой.
Схема полностью автономна, нужно было раз в месяц выводить бабло и иногда менять правила парсинга при изменении разметки на сайтах.
Почему не пошло? На это есть две причины. Первая — мое распиздяйство. Второе — яндекс очень туго индексировал новый контент на когда-то закрытых блогах ЖЖ. Есть подозрение, что он ставил галочку «не ходить туда», когда видел, что очередная ЖЖшечка закрылась. Из 20 сплогов более-менее индексировалось только четыре, на остальных в индексе несколько месяцев висел старый, давной удаленный первоначальный контент, либо в индексе была одна главная страница.
Прождав несколько месяцев, стало понятно, что идея провалилась и я благополучно об этой мегаидеи забыл. Но, как я недавно узнал, настроенные мной парсеры контакта продолжали работать по крону до тех пор, пока вконтактик не изменил разметку в результатах поиска. Но этого времени хватило, чтоб парсер стащил около 20к единиц контента, который был более-менее похож на уник. Что же я с этим добром сделал? Напишу в следующем посте.