От эксперимента с пачкой ГС у меня осталось пяток или больше забаненых доменов с тицем и без. Чтобы они не лежали без дела, я решил попробовать вывести их из бана. И вот каким путём. На каждом из доменов создаются блоги и постится напарсеный уник из заметок в контакте. А так как заметки в контакте чаще всего — сопли,гламур,депресняк или просто бред, то они отлично подойдут для имитации блога очередного задрота/школьника. Ну а потом пишем письмо Платонам, или ждём, т.к. по информации от самого яндекса большинство банов должно сниматься автоматом.

Что делает скрипт
Скрипт авторизуется в контакте, лезет на страницу поиска и ищет по заданному слову. Парсинг идёт в 2 этапа — сначала парсится выдача поиска, сохраняя ссылки на заметки. Потом вручную надо запустить второй этап — скрипт ходит по этим ссылкам, отбраковывая скрытые, добавляя в результаты открытые. Скорость работы не большая, т.к. задачи получения kk заметок не стояло. Этим скриптом можно за час-два напарсить 200-300 адекватных заметок — как раз для одого сплога.

Установка.
Скачать, распаковать, залить на хост в отдельную папку. Создать таблицу в базе Mysql, запрос create в txt файле в архиве. Открыть текстовым редактором файл index.php, прочитать и задать настройки, там в принципе всё понятно.

Использование
Открыть индексную пагу, ввести слово, по которому будут искаться заметки, жмакнуть на кнопку. Через некоторое время, кот. зависит от выставленного таймаута и кол-ва страниц для парсинга, появится надпись с числом найденных линков на заметки. Жмакаем на линк чуть ниже, пойдёт парсинг заметок и их названий. Время парсинга также зависит от кол-ва найденных ссылок и таймаута (колво*таймаут).

Результаты
Всё записывается в таблицу БД, где хранится содержание заметки, её название и слово, по которому она была найдена.

Ошибки и косяки
Т.к. делалось для себя, то возможны косяки, также не предусмотрена обработка ошибок, если вдруг чтото не работает — пишите сюда или разбирайтесь сами. Проверял на 3х хостингах, на одном из них запрещены соединения через curl (или забанен IP хоста), на двух других работало без проблем. Иногда скрипт вылетает по таймауту (если поставлен большой sleep или большое кол-во страниц для парсинга). Ничего страшного, всё, что он успел отпарсить — сохранилось. Скрипт отбраковывает дубли только в рамках одного запуска! Если несколько раз его запустить с одинаковыми настройками, в БД попадут одинаковые заметки.

Качаем (ссылка доступна только зареганым пользователям):

[member]http://leksus.info/temp/vk_notes.zip[/member]

PS: есть вероятность, что сразу он не заработает , может я что-то забыл подправить, если будут какие-то проблемы — пишите.

PPS: скрипт уже требует доработки — скажем, чтоб выкидывал слишком короткие или слишком длинные заметки, а также удалял заметки где только html-код (ссылки/картинки) и мало обычного текста. И еще — в контакте 80% заметок — спижженные друг у друга тексты (афоризмы/анекдоты/проч.хуета), но с небольшими изменениями, то есть имеет место быть вычисление нечётких дубликатов.. вообщем, есть над чем работать.