Граббинг информации с блогов
Идеи, Программы 28.10.2007Розовая мечта любого веб-мастера: создавать сайты, которые будут функционировать сами, без лишних телодвижений хозяина. Очевидное решие - сайт должен собирать информацию с других ресурсов.
Если наплевать на авторские права, то единственной проблемой этого метода есть то, что поисковые машины не любят дубликаты контента. Т.е. если вы берете только старую информацию, то ваш сайт будет очень-очень низко в поисковой выдаче, а то и вообще со временем забанен поисковиком.
Решение следующее - нужно модифицировать контент, чтобы он был как бы написан “своими словами”, сохраняя смысл. Это так называемый рерайтинг, когда вебмастер лично, либо нанятый им человек изменяют содержание статьи. Понятно что в основном это дело доверяют специалисту, тратя деньги. Это идеальный вариант.
Можно написать морфологический “переводчик”, который будет автоматически изменять тест. Написать подобную программу не легко, ведь нужно анализировать смысл текста, скорее всего понадобятся нейронные сети, или подобное “занудство”.
Так вот, решил я написать скрипт, можно назвать его БлогоГраббер.
Почему именно блоги? Да банально потому что общая структура страницы 95% блогов схожа, что облегчает анализ и граббинг. Ну и для моей идеи нужна RSS лента, а RSS ленты сейчас нет наверное только у неадекватных блогеров.
Что в идеале должен делать скрипт:
- Получаем информацию из RSS ленты;
- Заходить в каждый новый пост и забирать только контент статьи(в идеале не только текст, но и картинки; если картинка хостится на том же сервере что и RSS - закачиваем картинки себе, переименовываем её и патчим контент);
- Делаем статью более-менее уникальной;
- Выдаем результат в виде похожей RSS ленты, но уже с полным содержанием статей.
Так как написать толковый морфологический “переводчик” у меня скорее всего кишка тонка :), то пока что придется довольствоваться банальной работой со словарем синонимов. Например слово “иногда” можно менять на “временами”, ну и наоборот конечно. Плюс можно заменять наиболее распространенные фразы из двух-трех слов. Не ахти какой результат будет, но для начала неплохо.
Результат выдается в RSS потому что так удобней: можно использовать одно ядро граббинга для нескольких ресурсов, а в том же Wordpress’е можно поставить плагин, который будет автоматом постить результат на вашем сайте.
Вот такая вот идейка. Конечно же я рекомендую вам не воровать информацию защищенную правами, а использовать только открытые ресурсы
для подобных манипуляций.
update: Реально программу можно будет использовать и в “мирных” целях - просто можно будет читать полные статьи, не нажимая в RSS ридере “просмотреть статью полностью”.
Похожие записи:
Интересно почитать:
- Сохраняем и переносим расширения Firefox
- Акция "Вот что я о тебе думаю!" от Артёма
- Зима, валенки и настроение работать


(1 голосов, средний бал: 4 из 5) 

29.10.2007 в 10:23
Вот так вот сейчас - все воруют инфу друг у друга, никто не хочет башкой своей работать.
29.10.2007 в 10:24
Был бы щас совок - за такое бы расстреливали!
30.10.2007 в 12:32
Блогоферму решил написать? Интернет засорять?
В общем делай ещё такую фишку - руби ссылки
Может по низкочастотникам и выйдешь в топы
30.10.2007 в 12:42
Да, была идея скрестить это дело с автоматическим постом в Blogger

А почему сразу по низкочастотникам? Можно плодить сателиты и вывести пару проектов хотя бы на среднечастотники
30.01.2008 в 23:51
Имхо сложный скрипт…
да и есть уже такие, проще купить :Ы
31.01.2008 в 01:02
Да, ты прав, сложный… И уже есть
07.02.2008 в 15:46
тема конечно интересная