КАК РАБОТАЮТ ПОИСКОВЫЕ СИСТЕМЫ В ИНТЕРНЕТЕ - Студенческий научный форум

X Международная студенческая научная конференция Студенческий научный форум - 2018

КАК РАБОТАЮТ ПОИСКОВЫЕ СИСТЕМЫ В ИНТЕРНЕТЕ

Бахарев А.Ю. 1
1Тюменский государственный нефтегазовый университет Институт геологии и нефтегазодобычи Тюмень, Россия
 Комментарии
Текст работы размещён без изображений и формул.
Полная версия работы доступна во вкладке "Файлы работы" в формате PDF
Поисковая система – это …

Поисковая система– это информационная система с элементами автоматизации, которая осуществляет поиск интернет страниц по запросам пользователя. Google – самая популярный поисковик в мире, самый известный поисковик в России – Яндекс, а одним из самых старых поисковиков является Yahoo. В строении поисковой системы выделяют поисковую машину - ядро системы, которое представляет набор программных модулей; индекс или БД, которая хранит информацию обо всех интернет ресурсах, которые известны поисковой; и набор сайтов, являющих собой точки входа пользователей в систему (ru.yahoo.com, www.google.com, www.yandex.ru и т.д.). Всё это построено в виде классических трёх уровней: логика бизнеса, интерфейс пользователя и конечно же база данных, без которой никак не обойтись.

Своеобразие поиска в интернете

С первого взгляда, можно решить, что поиск какой-либо информации в интернете мало чем может отличаться от обычного поиска информации или какого-нибудь объекта, например как обрабатывается запрос SQL к БД и как реализуется задача поиска файла в компьютере. Такого мнения придерживались и те, кто создавал первые поисковые системы, но вскоре они осознали, что ошибались…

Во-первых(наверное, самое важное отличие), поиск в интернете отличается от обычного поиска тем, что алгоритм поиска по той же базе данных предполагает, что ее структура известна поисковой машине и автору запроса заранее. В интернете, по понятным причинам, это не так. Страницы в интернете составляют собой сеть, а не структуру каталога, это сильно влияет на алгоритмы, применяющиеся для поиска, и к тому же формат данных, которые размещают на интернет ресурсах никем не контролируется.

Во-вторых отличие заключается в том, что запрос представляется не в виде набора критериев поиска, а в виде текста, который писал человек на понятном ему языке. Следовательно, перед поиском информации, нужно чётко понять что нужно автору вопроса(человеку). Замечу, понять не какому-то другому человеку, а только вычислительной машине.

Третье отличие заключается в следующем: в каталоге или базе данных все элементы между собой равны(равноправны). В то же время в интернете имеет место быть конкуренция, а, соответственно, и разделение на ресурсы(страницы) с нужной и актуальной информацией и источников, близких по своему статусу к “информационному мусору”. Такой классификации подвергаются ресурсы и поисковые машины.

Подводя итог хочется дополнить, что область в которой производится поиск – это огромное количество страниц(миллиарды), по несколько килобайт, а то и больше, каждая. Около 10000000 страниц добавляется каждый день и такое же количество страниц обновляется. Всё это реализуют различные цифровые форматы. Очень печально, что даже современные технологии и ресурсы, имеющиеся в распоряжении лидеров рынка услуг поиска в интернете не позволяют им обрабатывать все это многообразие быстро и в полной объёме.

Принципы работы системы поиска

Понятно, что услуги поиска в интернете – это весьма выгодное дело. В детали, за счет чего живут такие компании, как Google и Яндекс можно не вдаваться, потому что основная часть их прибыли – это доходы от рекламы. А так как поиск в интернете есть дело очень выгодное, то и конкуренция среди таких компаний очень немалая. Что же определяет способность конкурировать на рынке интернет поиска? Конечно же качество того, что поисковая система выдаёт. Понятно, что чем выше это качество, тем будет больше пользователей этой системы, и тем ценнее будет контекстная реклама, которую можно размещать на страницах этой системы. Следовательно, больше денег компания может извлечь из этого дела. Отсюда желание разработчиков выдавать только актуальную информацию без спама. Разработчики направляют много своих сил на очистку результатов своей системы поиска, где был выдан спам или неактуальная информация.

  1. Поисковая машина сканирует весь интернет и ищет новые страницы, либо те, которые обновлены. Потому что старые страницы менее посещаемы и содержат информацию, которая в большинстве случаев является неактуальной.

  1. Поисковая машина систематично обновляет ранжирование ресурсов по их релевантности ключевым запросам, потому что в индексе постоянно происходит появление каких-либо новых страниц. Это называется обновлением поисковой выдачи.

  1. Из-за огромных объемов информации, размещенной в интернете и ограниченности ресурсов самой поисковой системы, поисковая машина старается загружать только самое актуальное и важное(естественно, по её мнению). В ее возможности входят всякие фильтры, которые удаляют мусор уже на этапе индексации или отсеивают спам из индекса по результатам обновления выдачи поиска.

  1. Современные поисковые системы учитывают не только текст запроса, но и его окружение: контекст и личные предпочтения пользователя, о которых было сказано ранее, а также дата запроса, регион и другое.

  1. На релевантность и адекватность какой-то конкретной страницы влияют не только структура и содержание, но и внешние параметры, к примеру ссылки на страницу со сторонних сайтов и поведение пользователя при нахождении на странице.

Качество работы поисковых систем постоянно увеличивается. Самая лучшая, быстрая и идеальная работа поисковой системы (для человека) возможна только в том случае, если все решения, касающиеся индексации и ранжирования будет принимать комиссия, которая состоит из большого числа специалистов всех существующих областей деятельности человека. Но это сделать невозможно, поэтому такую комиссию заменяют экспертные системы, эвристические поисковые алгоритмы и некоторые элементы искусственного интеллекта. Может быть работа всех этих подсистем также могла возвращать правильные, верные результаты, если бы имела возможность обрабатывать, к слову, все, имеющиеся в открытом доступе данные, но и это осуществить практически невозможно. Несовершенство искусственного интеллекта и ограниченные ресурсы – две причины того, что пользователи не всегда довольны результатами работы поисковой системы, но время всё решит, ведь прогресс не стоит на месте. На сегодняшний день работа больших поисковых систем вполне удовлетворяет всем потребностям поиска в интернете для людей.

Список литературы:

  1. http://codingcraft.ru/searchengines.php

  2. Колисниченко Д.Н. “Поисковые системы и продвижение сайтов в Интернете”

Научный руководитель: Сенкевич Л. Б. Доцент кафедры КС. К. П. Н.

Просмотров работы: 94