Розовая мечта любого веб-мастера: создавать сайты, которые будут функционировать сами, без лишних телодвижений хозяина. Очевидное решие - сайт должен собирать информацию с других ресурсов.

Если наплевать на авторские права, то единственной проблемой этого метода есть то, что поисковые машины не любят дубликаты контента. Т.е. если вы берете только старую информацию, то ваш сайт будет очень-очень низко в поисковой выдаче, а то и вообще со временем забанен поисковиком.

Решение следующее - нужно модифицировать контент, чтобы он был как бы написан “своими словами”, сохраняя смысл. Это так называемый рерайтинг, когда вебмастер лично, либо нанятый им человек изменяют содержание статьи. Понятно что в основном это дело доверяют специалисту, тратя деньги. Это идеальный вариант.

Можно написать морфологический “переводчик”, который будет автоматически изменять тест. Написать подобную программу не легко, ведь нужно анализировать смысл текста, скорее всего понадобятся нейронные сети, или подобное “занудство”.

Так вот, решил я написать скрипт, можно назвать его БлогоГраббер. :) Почему именно блоги? Да банально потому что общая структура страницы 95% блогов схожа, что облегчает анализ и граббинг. Ну и для моей идеи нужна RSS лента, а RSS ленты сейчас нет наверное только у неадекватных блогеров.

Что в идеале должен делать скрипт:

  1. Получаем информацию из RSS ленты;
  2. Заходить в каждый новый пост и забирать только контент статьи(в идеале не только текст, но и картинки; если картинка хостится на том же сервере что и RSS - закачиваем картинки себе, переименовываем её и патчим контент);
  3. Делаем статью более-менее уникальной;
  4. Выдаем результат в виде похожей RSS ленты, но уже с полным содержанием статей.

Так как написать толковый морфологический “переводчик” у меня скорее всего кишка тонка :), то пока что придется довольствоваться банальной работой со словарем синонимов. Например слово “иногда” можно менять на “временами”, ну и наоборот конечно. Плюс можно заменять наиболее распространенные фразы из двух-трех слов. Не ахти какой результат будет, но для начала неплохо.

Результат выдается в RSS потому что так удобней: можно использовать одно ядро граббинга для нескольких ресурсов, а в том же Wordpress’е можно поставить плагин, который будет автоматом постить результат на вашем сайте.

Вот такая вот идейка. Конечно же я рекомендую вам не воровать информацию защищенную правами, а использовать только открытые ресурсы ;) для подобных манипуляций.

update: Реально программу можно будет использовать и в “мирных” целях - просто можно будет читать полные статьи, не нажимая в RSS ридере “просмотреть статью полностью”.

Шлак, в топкуКакахаПойдетИнтересноЭто 5, спасибо (1 голосов, средний бал: 4 из 5)