Парсер заметок вконтакте
От эксперимента с пачкой ГС у меня осталось пяток или больше забаненых доменов с тицем и без. Чтобы они не лежали без дела, я решил попробовать вывести их из бана. И вот каким путём. На каждом из доменов создаются блоги и постится напарсеный уник из заметок в контакте. А так как заметки в контакте чаще всего — сопли,гламур,депресняк или просто бред, то они отлично подойдут для имитации блога очередного задрота/школьника. Ну а потом пишем письмо Платонам, или ждём, т.к. по информации от самого яндекса большинство банов должно сниматься автоматом.
Что делает скрипт
Скрипт авторизуется в контакте, лезет на страницу поиска и ищет по заданному слову. Парсинг идёт в 2 этапа — сначала парсится выдача поиска, сохраняя ссылки на заметки. Потом вручную надо запустить второй этап — скрипт ходит по этим ссылкам, отбраковывая скрытые, добавляя в результаты открытые. Скорость работы не большая, т.к. задачи получения kk заметок не стояло. Этим скриптом можно за час-два напарсить 200-300 адекватных заметок — как раз для одого сплога.
Установка.
Скачать, распаковать, залить на хост в отдельную папку. Создать таблицу в базе Mysql, запрос create в txt файле в архиве. Открыть текстовым редактором файл index.php, прочитать и задать настройки, там в принципе всё понятно.
Использование
Открыть индексную пагу, ввести слово, по которому будут искаться заметки, жмакнуть на кнопку. Через некоторое время, кот. зависит от выставленного таймаута и кол-ва страниц для парсинга, появится надпись с числом найденных линков на заметки. Жмакаем на линк чуть ниже, пойдёт парсинг заметок и их названий. Время парсинга также зависит от кол-ва найденных ссылок и таймаута (колво*таймаут).
Результаты
Всё записывается в таблицу БД, где хранится содержание заметки, её название и слово, по которому она была найдена.
Ошибки и косяки
Т.к. делалось для себя, то возможны косяки, также не предусмотрена обработка ошибок, если вдруг чтото не работает — пишите сюда или разбирайтесь сами. Проверял на 3х хостингах, на одном из них запрещены соединения через curl (или забанен IP хоста), на двух других работало без проблем. Иногда скрипт вылетает по таймауту (если поставлен большой sleep или большое кол-во страниц для парсинга). Ничего страшного, всё, что он успел отпарсить — сохранилось. Скрипт отбраковывает дубли только в рамках одного запуска! Если несколько раз его запустить с одинаковыми настройками, в БД попадут одинаковые заметки.
Качаем (ссылка доступна только зареганым пользователям):
[member]http://leksus.info/temp/vk_notes.zip[/member]
PS: есть вероятность, что сразу он не заработает , может я что-то забыл подправить, если будут какие-то проблемы — пишите.
PPS: скрипт уже требует доработки — скажем, чтоб выкидывал слишком короткие или слишком длинные заметки, а также удалял заметки где только html-код (ссылки/картинки) и мало обычного текста. И еще — в контакте 80% заметок — спижженные друг у друга тексты (афоризмы/анекдоты/проч.хуета), но с небольшими изменениями, то есть имеет место быть вычисление нечётких дубликатов.. вообщем, есть над чем работать.
осталось реализовать это как плагин к WP и ждать большого прироста тиц у этого блога)
[Ответить]
хыхы) нее, он подходит для получения уникального нетематического текста блоговой направленности.
У кого есть навыки php, может переделать скрипт для парсинга обсуждений вконтакте (в группах), там уже намного более тематический текст. И организовать можно что-то типа сайта, где обсуждают что-нить в рамках нужной тематики.
[Ответить]
спасибо, реально стоящая вещь. избавили меня от удовольствия писать свой парсер))
вконтактное АПИ не позволяет такого делать, наверное из политических соображений.
как и фейсбучное. тоже уже второй день ищу, как парсить выдачу поиска фразы в заметках. у вас нет случаем никаких идей?
чую, придется и для фейсбука такое писать. хотя, если учесть, что vkontakte ~ facebook, то заточить вк-скрипт под фейсбук труда особого не должно составить :)
[Ответить]
Велкам!) правда, ему уже год, так что вполне возможно, он не пашет.
[Ответить]
искал в заметках вконтакте, много чего интересного но хотелось болше, купил парсер датакол теперь в добавок к заметкам тяну инфу из обсуждений в группах, стенах и всякую разную инфу
[Ответить]
leksus Reply:
июня 22, 2011 at 23:20
Парсер заметок сейчас по большому счету уже не актуален..
[Ответить]