АНАЛИЗ ПОИСКОВЫХ РОБОТОВ И ВЫБОР ФУНКЦИЙ ДЛЯ СВОЕГО РОБОТА

Пестряев А.А. 1, Воронова Л.И. 1

1Московский Технический Университет Связи Информатики

Текст работы размещён без изображений и формул.
Полная версия работы доступна во вкладке "Файлы работы" в формате PDF

За последние несколько лет в обществе широко распространились социальные сети и интерес к ним только устойчиво возрастает. В связи с большим объемом вовлеченных пользователей социальные сети стали достаточно мощным инструментом для преследования интересов тех, кто имеет к ним непосредственный доступ. Результатом роста социальных сетей стали как позитивные следствия, связанные с решением актуальных проблем современного общества, так и негативные тенденции, характерные для общества сетевого типа, в частности манипулирование поведением больших групп социума.

В этой связи чрезвычайно актуальны научные исследования и технологические разработки в области информационных сетевых технологий. В частности, разработка систем семантического анализа высказываний. В данной работе представлены результаты анализа предметной области, связанные с разработкой мультиагентной системы для сбора текстовой информации сети.

Данное направление является темой магистерской диссертации. Выбор данного направления связан с тем, что в настоящие время в глобальных сетях находятся большое количество текстовой информации, требующей семантического анализа для дальнейшей классификации и возможного использования, в том числе в различных службах, например, информационные ограничения для детей.

Постоянное расширение социальных сетей требует тщательного контроля за поведением зарегистрированных в них пользователей. Ведь ни для кого не секрет, что в социальных сетях свободно могут обсуждаться запретные темы, подготавливаться заговоры и теракты. Именно поэтому существует необходимость своевременного обнаружения потенциально опасных «настроений».

Если человек будет анализировать каждый сайт, то уйдет много времени и к тому же, он может пропустить некоторые выражения, поэтому лучше использовать систему, которая обучена находить изъяны в глобальных сетях. Одной из главных составляющих мультиагентной системы является поисковый робот, который собирает информацию в глобальных сетях, после передает ее другому роботу для анализа.

Поиско́вый ро́бот — программа, являющаяся составной частью поисковой системы и предназначенная для перебора страниц интернета с целью занесения информации о них в базу данных поисковика. По принципу действия паук напоминает обычный браузер. Он анализирует содержимое страницы, сохраняет его в некотором специальном виде на сервере поисковой машины, которой принадлежит, и отправляется по ссылкам на следующие страницы. Владельцы поисковых машин нередко ограничивают глубину проникновения паука внутрь сайта и максимальный размер сканируемого текста, поэтому чересчур большие сайты могут оказаться не полностью проиндексированными поисковой машиной.

Когда поисковой робот посещает страницу, он просматривает ее видимый текст, содержание различных тегов в исходном коде страницы («title tag», «meta tags», и т.д.), а так же гиперссылки на странице. Судя по словам ссылок, поисковая машина решает, о чем страница. Как работает робот показано на рис. 1. На рис. 2 показано как происходит анализ текста.

Есть много факторов, используемых для вычисления ключевых моментов страницы «играющих роль». Каждая поисковая машина имеет свой собственный алгоритм для оценки и обработки информации. В зависимости от того, как робот настроен, информация индексируется, а затем доставляется в базу данных поисковой системы.

После этого, информация, доставленная в индексные базы данных поисковой системы, становится частью поисковика и процесса ранжирования в базе. Когда посетитель осуществляет запрос, поисковик просматривает всю базу данных для выдачи конечного списка, релевантного поисковому запросу.

Рассмотрим поисковые роботы, которые в данный момент являются наиболее развитыми. Это роботы «Googlebot» и «Rambler».

Робот «Googlebot» – это разработанная «Google» программа сканирования интернета («паук»). Сканирование – это процесс, в ходе которого робот «Googlebot» обнаруживает новые и обновленные страницы для добавления в индекс «Google».

«Google» использует огромную сеть компьютеров, чтобы извлечь (или «просканировать») содержание миллиардов веб-страниц. Робот «Googlebot» применяет алгоритмический процесс: компьютерные программы определяют сайты, которые нужно сканировать, а также частоту сканирования и количество извлекаемых страниц на каждом сайте.

Процедура сканирования начинается с получения списка «URL» веб-страниц, который создается на основе результатов предыдущих сеансов сканирования. Его

Рис. 1. Схема работы робота

Рис. 2. Анализ текста

дополняют данные из файлов «Sitemap», предоставленных веб-мастером. Просматривая эти сайты, робот «Googlebot» находит на каждой странице ссылки («SRC» и «HREF») и добавляет их в список страниц, подлежащих сканированию. Все новые и обновившиеся сайты, а также неработающие ссылки помечаются для обновления в индексе «Google».

Робот «Googlebot» не должен обращаться к сайту чаще, чем раз в несколько секунд (в среднем). Это относится к большинству сайтов. Но из-за задержек сети в короткие периоды времени эта частота может оказаться несколько выше. Как правило, робот «Googlebot» загружает только одну копию каждой страницы. Загрузка нескольких копий может быть вызвана остановкой и перезапуском поискового робота.

Итак, робот «Googlebot» работает следующим образом:

Он получает список сайтов, которые необходимо посетить. Список составляется на основании предыдущего сканирования, а также файла «Sitemap» предоставленных веб-мастером.
Определяется частота сканирования.
Количество страниц просматриваемых на сайте. Не все страницы робот может посетить, перед сканированием сайта, он просматривает файл «Robots.txt», где указано какие страницы не следует индексировать. Если данный файл отсутствует, то индексируется то количество страниц, которое указал веб-местер.

Теперь рассмотрим как работает «Rambler» робот. Автоматически роботы «Rambler» сканируют сайты, находящиеся в следующих доменах первого уровня:

- Российская Федерация: .ru, .su
- Украина: .ua
- Белоруссия: .by
- Казахстан: .kz
- Киргизия: .kg
- Узбекистан: .uz
- Грузия: .ge

и игнорируют сайты из других доменов.

Если данный сайт находится вне названных доменов (например, в зонах .com, .org, .net), но существенная часть сайта содержит русскоязычные материалы или он может представлять интерес для русскоязычной аудитории «Рамблера», можно отослать письмо на адрес «Rambler» с просьбой включить сайт в число сканируемых.

Робот «Rambler» при сканировании игнорирует поля и все другие поля , кроме . Это связано с тем, что эта система старается индексировать документ таким, какой он есть (то есть таким, каким его видит пользователь). Не секрет, что зачастую создатели страниц очень часто используют эти поля, пытаясь заставить поисковые машины находить документ по запросам, не имеющим к нему прямого отношения.

Максимальный размер документа для робота «Rambler» составляет 200 килобайт. Документы большего размера усекаются до указанной величины.

Также робот использует данные из файла «Robots.txt» чтобы знать, какие страницы не следует индексировать.

Робот «Rambler» работает следующим образом:

Веб-мастером создается список сайтов, которые робот должен посетить, также в список попадают сайты из предыдущего сканирования.
На сайте робот просматривает файл «Robots.txt» и определяет, какие страницы не стоит посещать.
Определяется глубина сканирования.
Если страница содержит русскоязычную информацию, то она индексируется и отправляется на дальнейшую обработку.

Таким образом, из рассмотренных выше поисковых систем следует, что робот, который будет использоваться в мультиагентной системе должен работать следующим образом:

Список сайтов для посещения будет создаваться веб-мастером, а также на основании предыдущих запросов.
Глубина сканирования сайта не будет ограничена с целью получения всей информации.
Файл «Robots.txt» просматриваться не будет, так как необходимо проиндексировать все страницы сайта.
Будет введено ограничение только на русскоязычную информацию.
Ограничение на максимальный размер страницы устанавливаться не будет.

Принцип работы робота проектируемого для мультиагентной системы показан на рис.1.

Выводы.

В работе проведен анализ предметной области, связанной с поисковыми роботами и в качестве продуктов-аналогов рассмотрены поисковые системы: «Googlebot», «Rambler».

Выделены основные функции необходимые для работы поискового робота в составе мультиагентной системы и проведено его проектирование.

Список литературы.

Википедия поисковый робот – http://ru.wikipedia.org/wiki/Поисковый_робот
Поисковые роботы – netpronoter.ru
Робот «googlebot» - http://support.google.com/webmasters

Просмотров работы: 2389

Код для цитирования:

V Международная студенческая научная конференция Студенческий научный форум - 2013

АНАЛИЗ ПОИСКОВЫХ РОБОТОВ И ВЫБОР ФУНКЦИЙ ДЛЯ СВОЕГО РОБОТА

Студенческий научный форум - 2013
V Международная студенческая научная конференция