Года три назад у меня была мегаидея, которую я благополучно профейлил. Идея была заработать на блогуне, как это ни банально звучит.

Схема была такая.

  1. Уник
    Парсим заметки пользователей вконтакте через поиск среди заметок, убираем весь хлам типа анекдотов, стихов и пр. посредством хитрого анализа, убираем нечеткие дубли посредством шинглов, убираем заметки меньше 300 и больше 3000 знаков. В итоге у нас остается выжимка из неких текстов, доля уникальности которых довольно высока. На тот момент вконтактик был полностью закрыт и неиндексируем ПС. Также, на тот момент не было сервисов, предоставляющих услугу определения процента уникальности контента, поэтому уникальность не проверялась.
  2. Площадки
    Покупаем освободившиеся акки в ЖЖ с тИЦем в 10-20-30 (продает сам ЖЖ, стоило тогда 15$), настраиваем автопостинг туда уника. Через пару-тройку месяцев добавляем площадки в блогун.
  3. Блогун
    Настраиваем блогун принимать все заявки, берем все дешевые и говно-задания. Парсим блогун, тянем оттуда ссылки для размещения в блогах с периодичностью раз в сутки.
  4. Магия
    Собираем все вместе. В момент автопостинга проверяем, есть ли новые ссылки от блогуна для данного сплога, если есть добавляем к унику вниз постовой.

Схема полностью автономна, нужно было раз в месяц выводить бабло и иногда менять правила парсинга при изменении разметки на сайтах.

Почему не пошло? На это есть две причины. Первая — мое распиздяйство. Второе — яндекс очень туго индексировал новый контент на когда-то закрытых блогах ЖЖ. Есть подозрение, что он ставил галочку «не ходить туда», когда видел, что очередная ЖЖшечка закрылась. Из 20 сплогов более-менее индексировалось только четыре, на остальных в индексе несколько месяцев висел старый, давной удаленный первоначальный контент, либо в индексе была одна главная страница.

Прождав несколько месяцев, стало понятно, что идея провалилась и я благополучно об этой мегаидеи забыл. Но, как я недавно узнал, настроенные мной парсеры контакта продолжали работать по крону до тех пор, пока вконтактик не изменил разметку в результатах поиска. Но этого времени хватило, чтоб парсер стащил около 20к единиц контента, который был более-менее похож на уник. Что же я с этим добром сделал? Напишу в следующем посте.