СРАВНЕНИЕ ВОЗМОЖНОСТЕЙ ПОПУЛЯРНЫХ ИНФОРМАЦИОННО-ПОИСКОВЫХ СИСТЕМ

Гараев И.М. 1, Варфоломеева Т.Н. 1

1Магнитогорский государственный технический университет им.Носова

Работа в формате PDF

78.2 KB

Сертификат участника

Комментарии

Текст работы размещён без изображений и формул.
Полная версия работы доступна во вкладке "Файлы работы" в формате PDF

Введение

Современный мир характеризуется использованием новых информационных технологий во всех сферах жизнедеятельности человека. Информация становится определяющим фактором развития общества. Все информационное пространство, в котором человек существует, все больше углубляется в Internet. С появлением глобальной информационной компьютерной сети появилась возможность оперативно получать информацию из любой точки земного шара. Самым распространенным средством информационных компьютерных технологий являются поисковые системы. Первые поисковые системы появились в сети Интернет более двадцати лет назад. В то время они реализовывали лишь функцию – поиска ссылок к недавно созданным страницам. На начальном этапе появления интернета, число пользователей сети было ограниченным, а количество информации относительно небольшим. Сегодня же поисковые системы превратились в многофункциональный сервис со своими службами. Они позволяют пользователям искать в сети Интернет самую разнообразную информацию, благодаря чему пользуются колоссальным спросом.

Проблема поиска и сбора сведений - одна из важных проблем поисковых систем. В двадцатом столетии, с зарождением века информационных технологий,проблема поиска информации приобрела новый облик. Сейчас она заключается не в том, что количества информации недостаточно и поэтому ее сложно отыскать, а в том, что теперь в обществе наблюдается ее переизбыток, с каждым днем, объем данных растет с геометрической прогрессией, и поэтому найти ответ на интересующий вопрос может оказаться совсем непростой задачей.

Проблема поиска информации существенно усложняется при использовании виртуальных источников. Здесь используется технология онлайновых каталогов, впоследствии использования которой, пользователь имеет право выполнять поиск в каталогах сразу двух или более библиотек, Тем самым, еще больше усложняет себе задачу, но, с другой стороны, увеличивает вероятностьее решения.

Иными словами, в современном мире невозможно представить жизнь без Интернета, с его помощью мы приобретаем разнообразные продукты пользования, общаемся, работаем, проводим с пользой свободное время. Возможности Всемирной Паутины безграничны, роль надежных гидов в виртуальных лабиринтах играют поисковые системы. Нет ничего проще, чем написать в строке поисковика нужный запрос, и поисковая система выдаст огромное количество предложений по внесенным словам или фразе. Еще сравнительно недавно, о чем-то подобном даже не догадывались.

Таким образом, актуальность проблемы обусловливается противоречием между большими потоками информации, циркулирующими в современном мире и неумением быстрого и качественного ее поиска в сети Интернет.

Актуальность определила тему курсовой работы – «Сравнение возможностей популярных информационно-поисковых систем».

Объектисследования –процесс поиска информации в современных поисковых системах сети Internet.

Цель исследования –определить сущность и значимость информационно-поисковых систем в современном обществе и выявить наиболее совершенную с точки зрения интерфейса и алгоритма поиска систему для пользователя.

В соответствии с поставленной целью были определены следующие задачиисследования:

рассмотреть теоретические основы автоматизированного информационного поиска;
описать классификации и разновидности современных поисковых систем;
выявить преимущества и недостатки поисковых систем;
провести сравнительный анализ современных поисковых систем.

§ 1. Характеристика информационно-поисковых систем

Поиск информации - задача, которую человечество решает уже многие столетия. По мере роста объема информации, потенциально доступных одному человеку (например, посетителю библиотеки), создавались болеесовершенные поисковые средства и приемы, позволяющие найти необходимый документ. Одним из таких средств является информационно-поисковая система.

Информационно-поисковая система (ИПС) - система, обеспечивающая поиск и отбор необходимых данных в специальной базе с описаниями источников информации (индексе) на основе информационно-поискового языка и соответствующих правил поиска[25].

Главной задачей любой информационно-поисковой системы является поиск информации соответствующей информационным потребностям пользователя. Очень важно в результате проведенного поиска ничего не потерять, то есть найти все документы, относящиеся к запросу (полнота поиска), и не найти ничего лишнего (точность поиска). Поэтому устанавливается качественная характеристика процедуры поиска - релевантность.

Релевантность - соответствие результатов поиска сформулированному запросу [8].

В неавтоматизированных информационно-поисковых системах описание источников информации проводится персоналом ИПС, то есть людьми, которые составляют краткую аннотацию на каждый ресурс. Затем, как правило, проводится сортировка описанных ресурсов по темам (составление тематического каталога). Конечно, описание, составленное человеком, будет адекватно источнику. Правда, в этом случае процедура индексирования¹занимает значительный период времени, поэтому формируемый индекс имеет, как правило, ограниченный объем. Зато поиск в подобной системе можно будет проводить так же легко, как в тематических каталогах библиотек.

В ИПС другого типа процедура описания информационных ресурсов автоматизирована. Для этого разрабатывается специальная программа-робот, которая по определенной технологии обходит ресурсы, описывает их (проводит индексирование) и анализирует ссылки с текущей страницы для расширения области поиска. Чаще всего для описания документа просто составляется список слов, которые встречаются в тексте и других частях документа, при этом учитывается частота повторения и местоположение слова, то есть, слову приписывается своеобразный весовой коэффициент в зависимости от его значимости. Таким образом, следующей задачей для ИПС второго типа является разработка робота - индексировщика².

Для поиска в системах автоматизированного типа пользователю необходимо научиться составлять запросы, в простейшем случае состоящие из нескольких слов. Тогда ИПС будет искать в своем индексе документы, в описаниях которых встречаются слова из запроса. Для проведения более качественного поиска необходимо разрабатывать специальный язык запросов для пользователя. В зависимости от особенностей построения модели индекса и поддерживаемого языка запросов разрабатываются механизм поиска и алгоритм сортировки результатов.

Поскольку индекс имеет значительный объем, количество найденных документов может оказаться достаточно большим. Следовательно, чрезвычайно важно, как поисковая машина проведет поиск и отсортирует его результаты.

Существенное значение имеет внешний вид поисковой системы, предстающий перед пользователем, поэтому одной из задач является разработка удобного и красивого интерфейса.

Наконец, исключительно важна форма представления результатов поиска, поскольку пользователю необходимо узнать как можно больше о найденном источнике информации, чтобы принять правильное решение о необходимости его посещения.

Информационно-поисковый язык (ИПЯ) – формализованный искусственный язык, предназначенный для индексирования документов, информационных запросов и описания фактов с целью последующего хранения и поиска. Информационно-поисковый язык, знаковая система, предназначенная для описания (путём индексирования) основного смыслового содержания текстов (документов) или их частей, а также для выражения смыслового содержания информационных запросов с целью реализации информационного поиска [6].

Любой абстрактный ИПЯ состоит из алфавита (списка элементарных символов), правил образования и правил интерпретации. Правила образования устанавливают, какие комбинации элементарных символов допускаются при построении слов и выражений, а правила интерпретации – как надлежит понимать эти слова и выражения.

ИПЯ должен располагать лексико-грамматическими средствами, необходимыми для выражения основного смыслового содержания любого текста и смысла любого информационного запроса по данной отрасли или предмету, быть недвусмысленным (допускать одно истолкование каждой записи), удобным для алгоритмического сопоставления и отождествления (полного или частичного) записей основного смыслового содержания текстов и смыслового содержания информационных запросов. При разработке конкретного ИПЯ учитываются специфика отрасли или предмета, для которой этот язык создаётся, особенности текстов, образующих поисковый массив, характер информационных потребностей, для удовлетворения которых создается данная информационно-поисковая система.

В большинстве ИПЯ основной словарный состав (лексика) задаётся его перечислением и представляет собой фрагмент лексики того или иного естественного языка. Отобранные из естественного языка слова и словосочетания, в совокупности образующие основной словарный состав, служат как бы алфавитом данного ИПЯ. Правила образования в таких ИПЯ выполняют функцию синтаксиса. В некоторых ИПЯ основной словарный состав задаётся (полностью или частично) методом порождения, который заключается в том, что для таких ИПЯ правила образования устанавливают, как из данного алфавита строить слова ИПЯ, а из этих слов – выражения (фразы) и какие из них будут правильно построенными. ИПЯ отличается от информационного языка и от машинного языка.

Современные поисковые системы просты и удобны в использовании, чем не могли похвастаться их предшественники. С помощью самых первых поисковых систем найти необходимую информацию было крайне сложно, они требовали огромных, по тем временам, сетевых ресурсов, выводя из строя веб-сервера.

Сегодня поисковая система –один из самых широко используемых методов навигации в киберпространстве. Современная автоматизированная информационно-поисковая система определяется как веб-сайт, предоставляющий возможность поиска информации в Интернете. Основной частью веб-сайта является поисковая машина, или поисковый движок – комплекс программ, обеспечивающий функциональность поисковой системы.

Иными словами поисковая система - это сумма следующих компонентов:

Webserver (веб-сервер) – сервер поисковой машины, который осуществляет взаимодействие между пользователем и остальными компонентами системы.

Spider (паук)- программа, написанная по принципу браузера, предназначена для скачивания веб-страниц. Браузер предназначен для визуального использования страниц, а паук работает с HTML кодом напрямую. Чтобы посмотреть "сырой" исходник нажмите в меню браузера: Вид- Просмотр HTML кода.

Crawler («путешествующий» паук) – программа, которая автоматически уходит по всем внешним ссылкам страницы. Ее задача - поиск не известных (или измененных) документов и в расстановке приоритетов, куда дальше должен идти Spider.

Indexer (индексатор) - программа-анализатор скаченных пауками веб-страниц. Она "разбирает" на части скачанную страницу и анализирует ее элементы, такие как текст, служебные html-теги, заголовки, особенности стилистики и структурные формы.

Database (база данных) – хранилище для скачанных и обработанных страниц - общая база данных поисковой машины.

Searchengineresultsengine (система выдачи результатов) – извлекает результаты поиска из базы данных поисковой системы. Именно она решает, какие страницы более соответствуют запросу пользователя, и отсортировывает их в нужном порядке. Модуль работает согласно заданным поисковой системой алгоритмам ранжирования[20].

Далее мы будем, рассматривать ИПС для всемирной паутины (WorldWideWeb). «Для начала рассмотрим динамику развития сетиInternet, изучив историю ее возникновения, мы сможем понять, для чего изначально создавались поисковые системы. Данная сеть была создана в связи с возникшей необходимостью совместного использования информационных ресурсов, распределенных между различными компьютерными системами. Большинство первых приложений, включая FTP и электронную почту, были разработаны исключительно для обмена данными междухост - компьютерами Internet»[1, c. 3].

Другие приложения, такие как Telnet, создавались для того, чтобы пользователь получил возможность доступа не только к информации, но и к рабочим ресурсам удаленной системы. «По мере развития Internet (увеличения пользователей и хост-компьютеров) прежние методы обмена данными перестали отвечать возросшим потребностям пользователей. Возникла необходимость разработки новых способов поиска сетевых ресурсов и доступа к ним, которые позволяли бы использовать информацию независимо от ее формата и расположения»[12, c. 10].

«Для удовлетворения таких потребностей сначала были созданы поисковая система Archie, решающая задачу локализации ресурсов на FTP-сервере, и система Gopher, упрощающая доступ к различным сетевым ресурсам. Затем были разработаны сетевые информационные системы World Wide Web и WAIS, предлагающие абсолютно новые методы получения информации. Принципы работы этих систем позволяют легко ориентироваться в огромном количестве информационных ресурсов без необходимости предоставления механизмов работы самой сети Internet. Такой подход позволяет говорить уже не просто о ресурсах взаимосвязанных компьютерных систем, а об особых информационных пространствах сети»[1, c. 4].

Система Archieпредставляет собой комплекс программных средств, работающих со специальными базами данных. В этих базах данных содержится постоянно пополняющаяся информация о файлах, к которым можно получить доступ через сервис FTP. Пользуясь услугами системы Archie, можно осуществить поиск файла по шаблону его имени. При этом пользователь получит список файлов с точным указанием места их хранения в сети, а также с информацией о типе, времени создания и размере файлов. Доступ к информационно-поисковой системе Archie может осуществляться различными путями, начиная от запросов по электронной почте и с помощью сервиса Telnet и заканчивая использованием графических Archie-клиентов.

Система Gopher была разработана для упрощения процесса локализации FTP-ресурсов Internet и для более удобного представления сведений о содержании хранящихся на FTP-серверах файлов. «Система Gopher дает возможность в удобной форме (в виде меню) представлять пользователям информацию об имеющихся файлах и их содержании. Меню Gopher-серверов могут содержать ссылки на другие Gopher- и FTP-серверы. Таким образом, пользователь получает возможность «путешествовать» по Internet, не обращая внимания на местонахождение интересующих его ресурсов, и получать доступ к этим ресурсам»[6, c. 75].

Система Veronica используется для поиска информации в Gopher-пространстве по заголовкам пунктов меню. После ввода ключевого слова, система Veronica выясняет, встречается ли оно в меню на каком-либо Gopher-сервере, и в качестве результатов поиска выдает список заголовков пунктов меню, содержащих ключевое слово. «Поскольку система Veronica не является автономной поисковой программой, а тесно связана с системой Gopher, она обладает тем же, что и система Gopher, недостатком: далеко не всегда по заголовку можно сказать, что собой представляет тот или иной информационный ресурс. Достоинства системы заключается в том, что нет необходимости узнавать, где расположена найденная информация, достаточно выбрать требуемую запись из списка»[6, c. 76].

Таким образом, основными показателями ИПС для всемирной паутины являются пространственный масштаб и специализация.

По пространственному масштабу ИПС можно разделить на локальные, региональные и глобальные.

Локальные поисковые системы могут быть разработаны для быстрого поиска страниц в масштабе отдельного сервера.

Региональные ИПС описывают информационные ресурсы определенного региона, например, русскоязычные страницы в Интернете.

Глобальные поисковые системы в отличие от локальных стремятся объять необъятное - по возможности наиболее полно описать ресурсы всего информационного пространства сети Интернет

По тематике ИПС можно разделить на универсальные и специализированные.

Универсальные — ищут информацию по любой теме (могут быть как локальными, так и глобальными).

Специализированные — ищут информацию по определенному профилю или тематике (преимущественно локальные).

Далее нам будут интересны лишь универсальные ИПС, потому что поисковые системы данного вида более востребованы и популярны среди пользователей.Как было уже сказано, главным достоинством информационно-поисковой системы является быстрый поиск нужной информации, который во многом зависит от структуры ИПС.

«В основу построения структуры ИПС легло её функциональное назначение, область применения и особенности описываемой ею предметной области.

Функционально ИПС предназначена для быстрого и удобного поиска и выборки данных из больших массивов информации по шаговым двигателям как для внутренней работы с данными, так и для подготовки их для различных САПР. Это накладывает определённые требования на построение пользовательского интерфейса и на форму предоставления информации. При построении структуры ИПС учитывается также потребность потенциального пользователя в доступе к системе контекстно-зависимой подсказке»[5, c. 23].

«Реализация вышеперечисленных требований возложена на следующий ряд структурных компонентов, так называемых блоков:

- проверки БД на целостность;

- просмотра;

- редактирования;

- защиты паролем;

- поиска;

- вывода результата;

- хранения параметров поиска;

- помощи.

В основе выбора именно такой структуры информационно-поисковой системы по шаговым двигателям лежит очень простая логика - любой блок системы должен получать данные, обрабатывать их и выдавать пользователю в определенном порядке, обеспечивая логику процесса»[5, c. 25].

Рассмотрим каждый блок более подробно (рис. 1)[27]:

Блок проверки БД на целостность осуществляет проверку всех составных частей базы данных.

Блок просмотра позволяет начать работу в системе с просмотра БД и далее выбрать другой режим работы.

Блок редактирования производит редактирование только числовых полей БД и позволяет изменять характеристики, вводить новые и удалять старые записи в таблицы БД. Здесь также можно произвести смену режима работы.

Блок защиты паролем осуществляет блокировку доступа к редактированию данных путем ввода шестизначного пароля.

Блок поиска предназначен для осуществления поиска по введенному техническому заданию (ТЗ) и перехода к другим режимам работы.

Блок вывода результатов поиска выводит на экран в определенном порядке все найденные шаговые двигатели и их характеристики в соответствии с ТЗ поиска. Блок хранения параметров поиска записывает и хранит информацию до следующего этапа поиска.

Блок помощи выполняет роль подсказки в различных режимах работы системы.

Рисунок 1. Структура ИПС

Следующим компонентом в основе построения структуры ИПС является ее область применения.

«Область применения ИПС, как было указано выше, - это внутренняя работа с информацией и обработка информации для использования её в работе САПР, включающей в свой состав ИПС как один из модулей. Из этого вытекают очень высокие требования к надёжности функционирования системы, поскольку любая САПР - это достаточно сложное построение с заданными параметрами надежности, и каждая структура, включаемая в такое построение, должна обладать надежностью, по крайней мере, не меньшей, чем вся система в целом. Обеспечение нужных показателей надежности, в свою очередь, во многом определяется структурой построения системы.

Для организации БД ИПС необходимо полное исследование предметной области. Вданной ИПС предметной областью является широкий класс шаговых двигателей»[5, c. 26].Информационно-поисковые системы (ИПС) Интернет, при всем их внешнем разнообразии, также попадают в один из этих классов. Поэтому, прежде чем знакомиться с ИПСИнтернет, рассмотрим абстрактные алфавитные (словарные), систематические и предметные ИПС.

В классификационных ИПС используется иерархическая (древовидная) организация информации, которая называется классификатором. Разделы классификатора называются рубриками. Библиотечный аналог классификационной ИПС - систематический каталог. Классификатор разрабатывается и совершенствуется коллективом авторов. Затем его использует другой коллектив специалистов, называемых систематизаторами. «Систематизаторы, зная классификатор, читают документы и приписывают им классификационные индексы, указывающие, каким разделам классификатора эти документы соответствуют»[3, c. 120].

Предметная ИПС с точки зрения пользователя устроена наиболее просто. Ищи название нужного предмета своего интереса (предметом может быть и нечто невещественное, например, индийская музыка), а с названием связаны списки соответствующих ресурсов Интернет. Это было бы особенно удобно, если полный перечень предметов невелик.

Словарные ИПСс обобщенным англоязычным названием searchengines. были созданы в результате возникновения культурных проблем, связанных с использованием классификационных ИПС.

«Основная идея словарной ИПС - создать словарь из слов, встречающихся в документах Интернет, в котором при каждом слове будет храниться список документов, из которых взято данное слово»[11, c. 42].

Теория информационного поиска предполагает два основных алгоритма работы словарных ИПС: с использованием ключевых слов и с использованием дескрипторов. В первом случае, для оценки содержимого документа используются только те слова, которые в нем встречаются, и по запросу ИПС сопоставляет слова из запроса со словами документа, определяя по количеству, расположению, весу слов из запроса в документе его релевантность. Все работающие ИПС по историческим причинам используют этот алгоритм, в различных модификациях[14].

При работе с дескрипторами индексируемые документы переводятся на некоторый дескрипторный информационный язык. Дескрипторный информационный язык, как и любой другой язык, состоит из алфавита (символов), слов, средств выражения парадигматических и синтагматических отношений между словами. «Парадигматика предусматривает выявление скрытых в естественном языке лексико- семантических отношений между понятиями»[11, c. 44]. В рамках парадигматических отношений можно рассматривать, например, синонимию, омонимию. Синтагматика исследует такие отношения между словами, которые позволяют объединять их в словосочетания и предложения. Синтагматика включает правила построения слов из элементов алфавита (кодирование лексических единиц), правила построения предложений (текстов) из лексических единиц (грамматика)[15].

То есть, запрос пользователя переводится в дескрипторы и обрабатывается ИПС уже в этой форме. Такой подход более затратен по вычислительным ресурсам, но и потенциально более продуктивен, так как позволяет отказаться от критерия релевантности и работать непосредственно с пертинентностью документов.

«Словарные ИПС способны выдавать списки документов, содержащие миллионы ссылок. Даже просто просмотреть такие списки невозможно, да и не нужно. Было бы удобно иметь возможность задать формальные критерии (хотя бы относительной) важности (с точки зрения пертинентности) документов с тем, чтобы наиболее важные документы попадали бы в начало списка. Все ИПС в настоящее время уделяют основное внимание именно алгоритму ранжирования полученных ссылок»[10, c. 122].

Наиболее часто используемыми критериями при ранжировании в ИПС являются наличие слов из запроса в документе, их количество, близость к началу документа, близость друг к другу;

«Наличие слов из запроса в заголовках и подзаголовках документов (заголовки должны быть специально отформатированы);

Количество ссылок на данный документ с других документов; «респектабельность» ссылающихся документов»[10, c. 123].

Почти все современные популярные информационные поисковые системы предоставляют возможность поиска информации разными способами. Это обеспечивается интеграцией в современную поисковую систему перечисленных выше поисковых систем. Таким образом, можно сделать вывод, что алфавитные (словарные), систематические и предметные ИПС являются подсистемами ИПС Интернет. По большей части это «склеивание» направленно на удовлетворение «прихотей» пользователя.

§ 2. Обзор популярных мировых и российских информационно-поисковых систем

Рейтинг мировых и российских информационно-поисковых систем, поможет нам выявить наиболее популярные поисковые системы, которые в дальнейшем мы будем рассматривать. Обратимся к данным рейтинга мировых поисковых систем показанных на рисунке 2.

Google первая по популярности поисковая машина в мире обрабатывающая более 40 миллиардов запросов в месяц (доля рынка 83,4 %), и индексирует более 8 миллиардов веб-страниц. Google может находить информацию на 191 языке (на 15 октября 2012) [15]. Второе место (с большим отрывом) у поисковой системыYahoo! – 6,32% рынка. Третье место занимает крупнейший китайский поисковик Baidu.com – 4,96% рынка[20]. Уверенные позиции последнего связаны с тем, что на территории Китая заблокированы и Google, и Yahoo. Четвертое место занимает Bing(MSN),она является относительно молодой поисковой системой от Microsoft, её успех главным образом определяетсяогромным массивом статистических данных, который накопился у компании за годы существования браузера InternetExplorer, который в дальнейшем позволил ее инженерам создать поисковой алгоритм, дающий пользователямрелевантную выдачу.[27]

Рисунок 2. Рейтинг мировых поисковых систем

Лидер поисковых машин Интернета, Google занимает более 70% мирового рынка, а значит, семь из десяти находящихся в сети людей обращаются к его странице в поисках информации в Интернете. Сейчас регистрирует ежедневно около 50 миллионов поисковых запросов и индексирует более 8 миллиардов веб-страниц [9].

Информационно-поисковая система Google быларазработана в 1998 выпускниками Стэндфордского университета Сергеем Брином и Лари Пейджем, которые применили для ранжирования документов технологию PageRank, где одним из ключевых моментов является определение «авторитетности» конкретного документа на основе информации о документах, ссылающихся на него. Говоря общими словами, чем больше документов ссылается на данный документ, и чем они авторитетнее, тем авторитетнее становитсяданный документ. Количественное значение авторитетности документа (другими словами, взвешенное количество ссылок или PageRank) относится к так называемым статическим факторам (т.е. независящим от конкретного запроса) и учитывается при определении релевантности документа конкретному запросу как весовой коэффициент. Наряду с этим Google применил для определения релевантности документа не только текст самого документа, но и текст ссылок на него. Эта технология позволила ему обеспечить выдачу довольно релевантных результатов на фоне других поисковиков. Довольно быстро Google стал лидировать в различных опросах по такому показателю, как удовлетворенность пользователей результатами поиска. Google осуществляет поиск по документам на более чем 35 языках, в том числе русском. В настоящее время многие порталы и специализированные сайты предоставляют услуги поиска информации в Интернете на базе Google, что делает задачу успешного позиционирования сайтов в Google еще более важной. Google проводит переиндексацию своей поисковой базы примерно раз в четыре недели. Во время этого усовершенствования, неофициально называемого Googledance, происходит обновление базы на основе информации, собранной роботами за время, прошедшее с предыдущего усовершенствования, и перерасчет значений PageRank документов [15].

Также существует определенное количество документов с достаточно большим значением PageRank, информация о которых в поисковой базе обновляется ежедневно, однако значение PageRank пересчитывается только во время Googledance. Нормированное значение PageRank для конкретного документа, загруженного в браузер, можно узнать, скачав и установив GoogleToolBar - специальную панель инструментов для работы с этим поисковиком. Не смотря на то, что в поисковике имеется форма для бесплатного добавления страницы в базу, Google предпочитает сам находить новые документы по ссылкам с уже известныхстраниц,и не будет индексировать добавленную через форму страницу, если в его базе не найдется ни одной страницы, ссылающейся на нее.

Так же на страницах результатов поиска Google отображаются платные (payperclick) рекламные объявления конкурирующих компаний, которые основывают рекламные объявления на брендах. «В то время как сервис мог бы помочь увеличить трафик, некоторые пользователи «сливаются», так как Google использует известность брендов для продажи рекламных объявлений, как правило, конкурирующим компаниям». Чтобы сгладить этот конфликт Google предложил отключать эту возможность для желающих компаний.

Поисковая технология, позволяющая пользователю настраивать результаты выдачи по поисковым запросам. Пользователь может удалять результаты из списка и поднимать вверх списка. Технология была запущена компанией Google весной 2009 года и проработала до осени. В настоящий момент (4 мая 2013 года), в настройках поиска осталась настройка для включения «Википоиска», но в выдаче соответствующие элементы управления отсутствуют. Другие поисковые системы подобной функциональности пока не предоставляли.

22 сентября 2010 года компания запустила голосовой поиск в России. Чтобы осуществить поиск, необходимо нажать в телефоне кнопку рядом со строкой поиска и произнести свой запрос, телефон отправит ваш голос на сервер и браузер, будет выдавать строку с распознанным вашим запросом и результатами поиска по нему.

По случаю праздника или круглой даты какой-нибудь широко известной личности, стандартный логотип Google у региональных доменов может меняться на праздничный, имеющий определённую тематику, смысл. Например, по случаю дня рождения Наполеона Орды 11 февраля 2010 года на логотипе белорусского домена Google появились акварели этого известного художника, 6 июля поздравляли со 121 - летием Марка Шагала (логотип был в виде коллажа из фрагментов его работ). После десятилетнего ожидания 22 марта 2011 года Google выиграл патент на "GoogleDoodle".

Поисковая система Yahoo —одна из самых первых (создана Дэвидом Фило и Джерри Янгом в апреле 1994года) по сей день остается и самой популярной из них, традиционно сочетая поиск, как по ключевым словам, так и с помощью иерархического дерева разделов [6].

Нынешнее развитие Yahoo можно определить как движение в онлайн, интерактивность. Yahoo быстро осваивает эту область Интернет-услуг, но возникает одна проблема: ядро Yahoo! не было на это рассчитано. Не была в 1994 году заложено в него "онлайновая" составляющая, ее "приклеил" Тим Кугл несколькими годами позже. Естественно возникает угроза хакерских атак через эту незащищенную область.

Одно из новшеств поисковой системы Yahoo - панель задач для браузера Firefox,. Этот инструмент помогает пользоваться поиском Yahoo, не заходя на официальный сайт, а лишь используя функциональные кнопки панели.

1 сентября 2005 года поисковик Yahoo, которому принадлежит более 200 миллионов адресов электронной почты по всему миру, анонсировал запуск новой системы поиска текстов, фотографий и других документов, содержащихся в письмах.

Необходимость такого нововведения возникла вслед за увеличением объёма хранимых данных, ведь некоторые пользователи создают целые почтовые архивы. Подгоняемый конкурентом Google и его почтовым сервисом Gmail, Yahoo для хранения почты предлагает отныне 1 гигабайт бесплатного места, или 2 гигабайта по годовому абонементу. «Как только вы получаете возможность хранить больше информации, вам необходимы и расширенные поисковые возможности», – объясняет Эрик Петерсон, аналитик компании JupiterResearch.

Пользователи поисковой системы Yahoo, в свою очередь, смогут теперь использовать возможности детализированного поиска слов в названии или непосредственно в тексте письма, а также в присоединенных документах, не открывая их. Результат поиска отражается в трёх строках с указанием всех атрибутов. На панели справа отображаются все похожие документы. Найденные фотографии выводятся на экран в уменьшенном виде, что значительно облегчает поиск. Система также учитывает орфографические ошибки, позволяя искать слова лишь по первым буквам.

Yahoo планирует предложить новую систему небольшому числу американских пользователей, а затем распространить её по всему миру. Со стороны клиентов это не потребует никаких дополнительных усилий. «Когда услуга станет, доступна, в левом верхнем углу страницы вашего почтового ящика появится соответствующий баннер», – обещает компания Yahoo.

По данным comScoreMediaMetrix на июль этого года, домену Yahoo принадлежит 219 миллионов адресов электронной почты, что составляет 31,5% мирового рынка, уступая лишь Microsoft с 221 миллионом пользователей сервиса Hotmail (35,5% рынка) [6].

Baidu – лидер среди китайских поисковых систем. По количеству обрабатываемых запросов поисковый сайт Байду стоит на 3 месте в мире (3 миллиарда 428 миллионов; с долей в глобальном поиске 5,2 %). Уже в конце года в Китае свыше 170 млн. пользователей займутся поиском информации в Интернете. Аналитик J.P. Морган Дик Вей исходит в своем актуальном анализе из того, что это число вырастет в течение следующих трех, четырех лет до 100 млн. пользователей. Гигантский рынок с высокими доходами для Baidu, сравнивают только прибыль, которую Google достигает в США с очень похожей бизнес-моделью [18].

Теперь опишем наиболее популярные поисковые системы российского рынка информационных ресурсов.

Большинство «русскоязычных» поисковых систем индексируют и ищут тексты на многих языках — украинском, белорусском, английском и др. Отличаются же они от «всеязычных» систем, индексирующих все документы подряд, тем, что в основном индексируют ресурсы, расположенные в доменных зонах, где доминирует русский язык или другими способами ограничивают своих роботов русскоязычными сайтами. На сегодняшний день самой популярной русскоязычной поисковой системой является Яндекс – 54% всех поисковых запросов. Рейтинг российских поисковых систем показан на Рисунке 3

Рисунок 3. Рейтинг российских поисковых систем

Основное отличие русскоязычных поисковых систем от иностранных одно – то, что глобальные поисковые системы, поддерживающие поиск на русском языке, не поддерживают русскую морфологию. В русскоязычной части сети Интернет работают около двух десятков поисковых систем, но подавляющие большинство пользователей работает лишь с несколькими, подробно остановимся на самых крупных.

Яндекс – на сегодня наиболее популярная русскоязычная поисковая система, ежемесячно к ней обращаются более 35 миллионов пользователей сети Internet. Начала свою работу во второй половине 1997 года учитывая морфологию русского языка. История компании «Яндекс» началась в 1990 году с разработки поискового программного обеспечения в компании «Аркадия». За два года работ были созданы две информационно-поисковые системы – Международная Классификация Изобретений, 4 и 5 редакция, а также Классификатор Товаров и Услуг. Обе системы работали локально под DOS и позволяли проводить поиск, выбирая слова из заданного словаря, с использованием стандартных логических операторов. В1993 году «Аркадия» стала подразделением компании CompTek. В 1993-1994 годы программные технологии были существенно усовершенствованы благодаря сотрудничеству с лабораторией Ю. Д. Апресяна (Институт Проблем Передачи Информации РАН). В частности, словарь, обеспечивающий поиск с учетом морфологии русского языка, занимал всего 300Кб, то есть целиком грузился в оперативную память и работал очень быстро. С этого момента пользователь мог задавать в запросе любые формы слов [18].

Слово Яндекс придумал за несколько лет до этого один из основных и старейших разработчиков поискового механизма. «Яndex» означает «Языковой index», или, если по-английски, «Yandex» - «YetAnotherindexer». За 4 года публичного существования Яndex возникли и другие толкования. Например, если в слове «Index» перевести с английского первую букву ("I" – «Я»), получится «Яndex».

В начале 1996 года был разработан алгоритм построения гипотез. Отныне морфологический разбор перестал быть привязан к словарю - если какого-либо слова в словаре нет, то находятся наиболее похожие на него словарные слова и по ним строится модель словоизменения. В это время Интернет в России только начинался. Еще через полгода стало очевидно, что ничто не отделяет CompTek от создания собственной глобальной поисковой машины. Объем Рунета составлял тогда всего несколько гигабайт. Осенью 1997 года был открыт Yandex.Ru.

Помимо поисковой системы, сегодня Яндекс – огромный портал с целым набором широко используемых сервисов, такими как каталог, Яндекс. деньги, и другие. Официально поисковая машина Yandex.Ru была анонсирована 23 сентября 1997 года на выставке Softool. Основными отличительными чертами Yandex.Ru на тот момент были проверка уникальности документов (исключение копий в разных кодировках), а также ключевые свойства поискового ядра Яндекс, а именно: учет морфологии русского языка (в том числе и поиск по точной словоформе), поиск с учетом расстояния (в том числе в пределах абзаца, точное словосочетание), и тщательно разработанный алгоритм оценки релевантности (соответствия ответа запросу), учитывающий не только количество слов запроса, найденных в тексте, но и «контрастность» слова (его относительную частоту для данного документа), расстояние между словами, и положение слова в документе [19].

Гибкий язык запросов, позволяет производить поиск по самым различным критериям. Так, например, для операции исключения можно указать область действия: запрос A ~~ B найдёт документы (страницы), в которых присутствует А, но не присутствует В, а запрос А ~ Б - документы, где слово Б не присутствует со словом А в одном предложении. Аналогично, оператор & ищет сочетания ключевых слов в предложении, а && - во всём документе.

По умолчанию Яндекс выводит по 10 ссылок на каждой странице выдачи результатов, в настройках результатов поиска можно увеличить размер страницы до 20, 30 или 50 найденных документов. Иногда порядок сайтов на этих страницах может отличаться, так как обновление баз для этих результатов происходит не одновременно.

Время от времени алгоритмы Яндекса, отвечающие за релевантность выдачи, меняются, что приводит к изменениям в результатах поисковых запросов. Такие изменения, официально объявленные, происходили, например, в марте 2004 года, августе 2005 года и январе 2007 года; по неофициальным сведениям, их значительно больше (например, в августе-сентябре 2007 года). Последнее такое изменение произошло в ноябре 2009 года, когда была выложена обновленная версия поисковой программы «Снежинск».

В частности, эти изменения направлены против поискового спама, приводящего к нерелевантным результатам по некоторым запросам (реже - по целым семействам запросов).

Rambler– старейшая поисковая система российского Интернет, запущена в 1996 году, на сегодня вторая по популярности с обращением более 25 миллионов посетителей в месяц. Помимо поисковой системы, сегодня Рамблер один из крупнейших порталов Русскоязычной части Интернета с большим набором широко известных сервисов, таких как каталог Рамблер, Рамблер-почта, Рамблер-ICQ или Рамблер-ТВ. По сути сегодня Рамблер - больше, чем просто поисковая система и набор сервисов, это крупная медиагруппа. Поисковая машина «Рамблер» начала работу в октябре 1996 года, на стартовом этапе содержала всего 100 тысяч документов. «Рамблер» не был первой отечественной поисковой системой, однако в первый год своего существования (когда весь русский веб с приемлемой степенью правдоподобия индексировался «Рамблером», «Апортом», «Русской поисковой машиной», а также шведской и калифорнийской AltaVista) вынес основной груз поисковых запросов [18].

Вторая версия «Рамблера» начала разрабатываться летом 2000 года, в марте нынешнего года приняла достаточно законченные очертания. В нее были введены функции, давно уже имевшиеся в конкурирующих системах. Она учитывает координаты слов, обучена строгой и нечеткой морфологии, связывает поиск с каталогом, в качестве которого используется Top100 (http://top100.rambler.ru/), группирует результаты поиска по сайтам, ищет по числам. Достаточно удачная архитектура продукта позволяет «Рамблер» иметь для поисковика количество серверов в 2 раза меньшее, чем у «Яндекса», и в 3 раза меньшее, чем у «Апорта» [27].

Апорт– третья попопулярности на сегодня поисковая система с обращением более 16 миллионов посетителей в месяц. Апорт позволяет пользователям осуществлять полнотекстовый поиск документов c учетом морфологии русского языка в запросах. Поисковая система построена на основании новейших достижений в области информационного поиска и использует уникальные алгоритмы сортировки найденных результатов. Разнообразные специализированные поиски (Знакомства, Товары, Новости, Рефераты, MP3 и др.) дают пользователям дополнительные возможности находить различную информацию в Сети. В поисковую машину интегрирован один из крупнейших в Русскоязычной части Интернет каталогов Интернет-ресурсов «Апорт-каталог».

Поисковая машина «Апорт» была впервые продемонстрирована в феврале 1996 года на пресс-конференции «Агамы» по поводу открытия «Русского клуба». Тогда она искала только по сайту russia.agama.com. Потом она начала искать по четырем, потом по шести серверам. В итоге, день рождения и фактический старт системы сильно «размазались» по времени, а официальная презентация «Апорта» состоялась только 11 ноября 1997 года. К тому времени в его базе был проиндексирован первый миллион документов, расположенных на 10 тысячах серверов. Создателем системы выступила компания «Агама» - разработчик программного обеспечения для платформы Windows, главным из которых являлся корректор орфографии «Пропись». Лингвистические разработки «Агамы» использовались при создании поисковой машины, в которой, скажем, в отличие от «Рамблер», изначально учитывалась морфология слов и осуществлялась по желанию клиента проверка орфографии запроса.

Важнейшими свойствами первой версии «Апорта» являлся перевод запроса и результатов поиска на английский язык и обратно, а также реконструкция всех проиндексированных страниц из собственной базы (что означает возможность просмотра страниц, уже несуществующих в оригинале).

«Апорт 2000» стал первой российской поисковой машиной, практически реализовавший две базовых технологии американской поисковой машины Google. Первая – учет «ранга страницы» (PageRank), который характеризует ее популярность (вычисляется по количеству ссылок на ресурс из внешнего Интернета: вес ссылки с популярного сайта выше, чем вес ссылки с менее популярного; ссылки, включающие слова запроса, имеют больший вес, чем, скажем, слово «здесь»). Вторая – обработка запроса, ориентируясь на HTML-код страницы. В «Апорт 2000» учитывается также вхождение слов запроса в URL. Среди недокументированных особенностей - больший приоритет сайтам, получившим высшую и элитную лигу в каталоге AtRus [18].

Можно отметить и то, что «Апорт» первым устроил поиск по новостным лентам (какие бы ложные сведения о приоритете «Яндекса» в этом сервисе не распускал в свое время Internet.ru). И, наконец, еще одно первенство «Апорта»– использование платной нулевой строки в выдаче. Однако в «Апорте» нельзя купить не нулевое, а просто более высокое место для своего сайта в результатах поиска.

Организация масштабируемости в архитектуре «Апорт 2000» такова, что можно дробить поисковую базу «Апорта» на несколько отдельных баз, каждый маленький «Апорт» работает на своем компьютере. «Апорт 2000» считает, что весь Интернет поделен на фрагменты. После проведения поиска по этим фрагментам, пользователю интегрируется и выдается общий ответ. Добавлять новые маленькие "апортики" можно путем не очень сложной процедуры. В случаях аварий отдельных машин выдаются несколько отличные от штатных интегральные результаты, что мы можем время от времени наблюдать.

В данном параграфе были рассмотрены мировые и русскоязычные поисковые системы. По результатам рейтинговых данных были выявлены наиболее популярные системы поиска. Таковыми являются Google, среди мировых ИПС, и Яндекс, среди русскоязычных систем. Критериями выбора именно этих систем являются удобство поиска информации, а именно: высокое качество алгоритма сортировки результатов, гибкий язык запросов, релевантность. Кроме этого были рассмотрены свойства большинства систем, и были определены некоторые особенности каждой из них. Таким образом, удалось выявить, что каждая система по-своему удовлетворяет критериям поиска и вполне может конкурировать с другими поисковыми системами.

§3. Сравнительный анализ современных информационно-поисковых систем

Теперь обратимся к положительным и отрицательным сторонам ранее рассмотренных наиболее популярных поисковых систем, тем самым продемонстрировав особенности, которыми должна обладать наиболее удобная система поиска

Поисковая система

Преимущества

Недостатки

Яндекс

1)Непрерывное развитие системы.

2)Качество выдачи растет, все больше удобных сервисов предлагает компания: каталог, карты, новости, прогноз погоды, почта.

3) глубокий морфологический анализ обрабатываемых терминов.

4) обладает хорошим механизмом распознавания одного документа в нескольких кодировках или на зеркальных серверах.

5) оригинально сконструированный механизм выдачи результатов.

6) огромная индексная база.

1) Разница в выдаче при наборе слова с большой (маленькой) буквы (иногда выдача меняется, иногда нет).

2) Частое выпадение секторов поисковой базы - когда исчезают части сайтов из выдачи и восстанавливаются через 2-5 дней.

3) Обновление индексов поисковой базы происходит недостаточно часто и регулярно.

Rambler

1) Система работает с большой скоростью поиска.

2) Обновление поискового индекса происходит несколько раз в день.

3) Поисковик всегда находит самые свежие документы и последние новости.

4) Обладает близким к оптимальному выводом результатов поиска.

5) производит ранжирование результатов в зависимости от частоты употребления и местоположения искомых терминов.

6) Один и тот же документ в различных кодировках показывается только один раз, а его конкретные адреса.

суммируются в списке, идущим за резюме.

1) На величину индекса релевантности влияет время существования сайта в сети. Эта особенность позволяет пользователям находить ресурсы, которые давно существуют, успешно развиваются, а не сайты-однодневки. Но такой подход значительно затрудняет попадание в выдачу новых сайтов, информация на которых подчас оказывается актуальной и, возможно, более важной для пользователя.

2) невозможность осуществления поиска по целой фразе указывая в запросах предельное расстояние искомых терминов друг от друга.

Aport

1)содержит довольно удобный в пользовании каталог.

2)широкие возможности составления запроса.

3) автоматический перевод запроса с русского на английский язык и наоборот.

4) Реконструкция проиндексированных страниц происходит из собственной базы. Это дает возможность просмотра уже несуществующих страниц.

1)не всегда быстро находит то, что от него просишь.

2) каталог не обновлялся уже очень давно.

3) способен выделять один и тот же документ в различных кодировках и выдавать ссылку на него лишь один раз, перечисляя конкретные адреса в списке URL.

4) не всегда корректная обработка названий страниц, из-за чего в результатах поиска часто указывается «документ без названия», в то время как метки title на большинстве таких страниц содержат важные данные.

Google

1) Очень мощная поисковая система, которая находится в постоянном развитии.

2) База индексов этой системы обновляется раз в два дня, качество выдачи очень высокое, найти необходимый документ или информацию довольно легко.

3) Система ориентирована в основном на ссылки, причем учитываются как входящие, так и исходящие ссылки с ресурса.

4) Способна выдавать результаты на запросы по семантике языка программирования (исходный код поиска).

1) Нередко встречаются ссылки на сайты с уже устаревшей информацией.

2) Случается, что ссылки, которые находятся в результатах поиска, ведут на сайт, находящийся в стадии разработки.

3) На запрос «фильм» и «фильмы» результаты поиска будут отличаться.

4) отсутствие возможности указать конкретную грамматическую форму слова, либо ударение также значительно усложняет процесс поиска информации.

Yahoo!

1) Содержит ссылки, которые наиболее полно отвечают указанной в запросе тематике.

2) Имеются интеллектуальные средства «отсечения» пустых, находящихся в разработке или чисто рекламных сайтов, далеких от искомой тематики.

3) всегда легко определить, в каком разделе находится нужная информация.

4) В случае если на Yahoo нет результатов, сразу выводятся результаты с AltaVista.

1) Возможна проблема с отсутствующими страницами, поскольку веб-мастера обычно забывают удалить свои сайты с поисковых систем, а на Yahoo нет механизма автоматического обновления.

2) Чисто русские ресурсы не добавляются, потому что их просто некому смотреть и оценивать содержимое.

2)Нет собственной поисковой машины.

3) Ищет слова, заданные в критерии поиска только в названии и описании страницы

Baidu

К концу 2002 года количество китайских сайтов, индексируемых Baidu, было на 50% больше, чем у любого конкурента.

Число заблокированных результатов поиска у Baidu на 30% больше, чем у Google

Google оставила Baidu далеко позади, поскольку предлагает рекламодателям выход на международные рынки.

MSN(Bing)

1)Предоставляет пользователям возможность сортировать результаты поиска: по дате, по алфавиту, по релевантности.

2) При осуществлении поиск по ключевому слову, команда специалистов компании отслеживает наиболее релевантные на их взгляд сайты, вручную отбирают и классифицируют их, и вносят в определенные рубрики директории.

3) ранжирования узлов по популярности и сезонным изменениям.

4) Помощь со стороны человека-редактора.

1) Поисковая система полна спамом.

2) Использует внешние данные для обработки поисковых запросов, поэтому на релевантность влияют: расположение ключевых слов, популярность ресурса и текст ведущих на сайт, и ведущих с сайта ссылок.

Главный недостаток современных поисковых систем – это их централизация. А централизация означает, что вся информация хранится в одном месте, все работы и расчёты производятся в одном месте, все решения (результаты выдачи) принимаются в одном месте.

Итак, почему это недостаток, здесь несколько причин:

1) Полная централизация требует колоссальных ресурсов – это огромные базы данных, множество компьютеров и т.д. Учитывая темпы роста Интернета в ближайшем будущем придется применять просто невероятные мощности.

2) Только при управлении в одном центре можно достичь полной конфиденциальности. А так как по нашей концепции поисковая система должна быть открытой, то и необходимость в централизации отпадает полностью.

3) Поисковая система не всегда может правильно оценить конкретный ресурс. Правильнее самому обладателю сайта поручить выполнение ранжирования документов внутри сайта. И теперь, самое главное как уйти от централизации и устранить все эти минусы - это внедрение в каждый сайт своей мини-поисковой системы. Эта мини-поисковая система будет индексировать содержимое сайта по правилам самого обладателя сайта. Только вебмастер будет решать, какие страницы его сайта по каким запросам более релевантные. А потом свои индексы уже будет отправлять на сервер поисковой системы.

Ещё одной из основных проблем при создании новой поисковой системы является учет мнения пользователей.

Попытка непосредственного выявления представлений пользователей об идеальной поисковой системе обычно не приводит к нужному результату: пользователи перечисляют все, что когда-либо видели или использовали в существующих системах. Не стоит ждать от пользователей навыков проектирования – они вряд ли смогут быстро описать, как должна выглядеть идеальная поисковая система.

Более продуктивным подходом к решению этой проблемы является анализ идеальной модели поисковой системы, которой оперируют пользователи. Идеальная модель – это совокупность представлений пользователя о целях, функциях, структуре, способах контроля и управления, возможных действиях с системой, которые определяют его деятельность. Такой подход – от анализа представлений пользователей и построения идеальной модели к проектированию интерфейсов продукта - снижает риск того, что продукт не понравится пользователям, не будет принят и востребован ими.

В идеальной модели должны присутствовать следующие компоненты:

Primarynouns (электронное письмо, товар в Интернет-магазине, картинка, доступная для просмотра в Интернете) – это основные элементы, с которыми пользователь производит действия или манипуляции при работе с системой.

Сценарий использования - это описание представлений пользователей о взаимодействии с системой, разбитое на элементарные шаги. Сценарий использования иллюстрирует поведение пользователя при решении определенной задачи с помощью поисковой системы.

Диаграмма задач является графическим отображением представлений пользователей о перечне решаемых в системе задач.

Диаграмма навигации демонстрирует представления пользователей о порядке смены экранов, с которыми они сталкиваются при работе с системой, и содержании этих экранов. Диаграмма построена на основе сценариев использования системы и используется в процессе проектирования интерфейсов.

Проблема 1: Оптимизаторы не могут ясно понять, каким должен быть, «хороший» сайт в понимании поисковика и как сделать его таким, чтобы поисковик считал его наиболее релевантным по запросам.

Решение этой проблемы хорошо реализовано в поисковой системе MSNSearch. В системе ранжированием занимается не только поисковик, но ему также помогает человек-редактор. Благодаря этому, при осуществлении поиск по ключевому слову, команда специалистов компании отслеживает наиболее частые запросы, вводимые в поисковую форму, и подбирает сайты, наиболее релевантные тематике запроса, а так же вручную отбирают и классифицируют их, и вносят в определенные рубрики директории. Что, например, в сравнении с самой популярной поисковой системой мира – Google, которая сама определяет релевантность Интернет-страниц (страница, на которую ссылаются чаще, более релевантна и значит более популярна) помогает избежать этой проблемы.

Проблема 2: Наличие доступных и понятно изложенных правил по специальному синтаксису каждой отдельной поисковой системы.

Изложение доступных и понятно изложенных правил по специальному синтаксису присутствует в следующих поисковых системах:

Яndex;

Google;

Апорт;

Проблема 3: Высокий уровень релевантности выдаваемой информации.

Используя опыт, полученный в ходе выполнения курсовой работы, и опыт использования поисковых систем в жизни в целом, представляю список поисковых систем (начиная с той, у которой более релеванты результаты поставленным запросам), поисковые системы, не соответствующие, по моему мнению, критерию «релевантность выдаваемой информации» не войдут в представленный ниже список:

Яndex;

Google;

Апорт;

Проблема 4: Спрос на поисковые системы, которые больше напоминают Интернет-портал, где можно завести почтовый ящик, узнавать курс валют и прогноз погоды, читать блоги и форумы.

Этому критерию пользователей отвечают:

Поисковые системы	Почтовый ящик	Курс валют	Прогноз погоды	Блоги	Форумы
Яndex
Google
Rambler
Апорт
MSN
Yahoo

Получили, что всем необходимым критериям не соответствует ни одна и рассмотренных нами поисковых систем. Ближе всего к идеалу находятся поисковые системы Яndex, Rambler, Апорт. За ними следуют Google и MSN, и заключает шестерку ведущих поисковых систем – Yahoo.

Заключение

Пользователи сети Internet имеют широкие возможности для получения экономической, социальной, научной, технологической и разнообразной текущей информации.

Для исследовательской работы была сформулирована главная цель –определить сущность и значимость информационно-поисковых систем в современном обществе и выявить наиболее совершенную с точки зрения интерфейса и алгоритма поиска систему для пользователя.

В соответствии с поставленной целью втеоретической части курсовой роботы были рассмотрены основные элементы и понятия информационного поиска, показанаструктура, работа и компоненты информационно-поисковых систем.Также были определены основные показатели оценки работы поисковых систем.

Очень часто приходится искать информацию в сети, незная даже приблизительно адрес страницы, на которой она может располагаться. В таких случаях на помощь приходит поисковая машина.

Поисковые машины – это роботизированные системы. Специальная программа-робот, которую называют паук или ползун, постоянно обходит Сеть в поисках новой информации, которую она вносит в базу данных.

При поиске в Интернете важны две составляющие – полнота (ничего не потеряно) и точность (не найдено ничего лишнего). Обычно это все называют одним словом – релевантность, то есть соответствие ответа вопросу. Важными показателями являются охват и глубина поисковой машины, скоростью обхода и актуальностью ссылок (скорость обновления информации в этой базе данных), качеством поиска (чем ближе к началу списка оказывается нужный вам документ, тем лучше работает релевантность).

При решении практической задачи части исследовательской курсовой был проведен сравнительный анализ самых популярных поисковых системна мировом и российском рынке информационных ресурсов. Были выявлены их преимущества и недостатки.

С помощью анализа выяснилась еще одна из проблем: при создании новой поисковой системы учитывается мнение пользователей.

В ходе работы выяснилось, что на настоящий момент времени не существует «идеальных» поисковых систем, однако, по данным произведенного анализа мы выяснили, что поисковая система Яndex больше всех приближена к модели «идеальной» поисковой системы. А такие поисковики как Google и Апорт поочерёдно делят то 2, то 3 места.

Стоит также обратить внимание на то, что каждая поисковая система будь то российская или зарубежная предоставляет различные возможности для поиска информации, поэтому нельзя однозначно определить какая из систем является наилучшей. Исходя из этого, для удобства поиска и полноты информации мы рекомендуем использовать несколько поисковых систем.

Также в рамках данной работы были рассмотрены приемы расширенного поиска, позволяющие в разы увеличить эффективность поиска и быстро найти необходимую информацию (см.Приложение А).

Выполненное исследование открывает новые возможности для дальнейшей разработки вопросов методики применения ИПС как в самостоятельном, так и в дистанционном обучении. Более того проделанная работа поможет пользователям грамотно использовать поисковые системы, и быстро находить нужную и актуальную информацию для дальнейшего её использования. Данное исследование может служить теоретической основой применения информационных средств в обучении.

Список использованной литературы

1. Ашманов, И. С. Продвижение сайта в поисковых системах / И. С. Ашманов. - М.: «Вильямс», 2010. - 304 с.

2. Байков, В. Д. Интернет. Поиск информации. Продвижение сайтов / В. Д. Байков. - СПб: БХВ - Петербург, 2010. — 288 с.

3. Блог WebMilk.ru. - [Электронный ресурс]. URL:http://webmilk.ru/2008/01/24/yandeks-voshel-v-top-10-poiskovyih-mashin - Режим доступа: (дата обращения: 8.04.2014);

4.Гаврилов, А. В. Локальные сети ЭВМ / А. В. Гаврилов.- М. : «Мир», 1990.- 154 с.

5. Гайдамакин, Н. А. Автоматизированные информационные системы, базы и банки данных / Н. А. Гайдамакин.- М. : «Гелиос», 2012.- 280 с.

6. ГОСТ 7.74-96 «СИБИД. Информационно-поисковые языки. Термины и определения - [Электронный ресурс]. URL: http://www.standartov.ru/norma_doc/33/33984/index.htm- Режим доступа: (дата обращения: 8. 04. 2014);

7. Информатика. Базовый курс: учебник / под ред. С. В. Симоновича. - СПб: «Питер», 2007.- 110 с.

8. Информационные поисковые системы - [Электронный ресурс]. URL: http://oka2o1o.narod.ru/ips.htm - Режим доступа: (дата обращения: 1.06.2014).

9. Итоги года - Sostav.ru. - [Электронный ресурс]. URL: http://www.sostav.ru/itogi/s/2009/6 - Режим доступа: (дата обращения: 8.04.2014);

10. Кадеев, Д. Н. Информационные технологии и электронные коммуникации / Д. Н. Кадеев.- М.: «Электро», 2011.- 250 с.

27. Как все начиналось - Google, Yahoo, Яндекс, Mail.ru, Rambler. TvoiExpert.

11. Колисниченко, Д. Н. Поисковые системы и продвижение сайтов в Интернете / Д. Н. Колисниченко. - М.: «Диалектика», 2007. – 272 с.

12. Ландэ, Д. В. Поиск знаний в Internet / Д. В. Ландэ. - М. : «Диалектика», 2005. — 272 с.

13. Маннинг, К. Введение в информационный поиск / К. Маннинг. – М.: «Вильямс», 2011.- 200 с.

14.Описание поисковой системы Bing. - [Электронный ресурс]. URL: http://anokalintik.ru/opisanie-poiskovoj-sistemy-bing.html - Режим доступа: (дата обращения: 10.03.2014)

15.Поисковаясистема Google- история компании Bbcont.ru. - [Электронный ресурс].URL:http://bbcont.ru/business/poiskovaya_sistema_google_istoriya_kompanii.html- Режим доступа: (дата обращения: 12.04.2014);

16. Путеводители в лабиринте Интернета. - [Электронный ресурс]. URL:http://rutracker.org/forum/viewtopic.php?t=1117865 - Режим доступа: (дата обращения: 8.05.2014);

17. Поисковая система Yahoo! - [Электронный ресурс]. URL: http://www.egonika.ru/forum/poiskovye_sistemy/poiskovaya_sistema_yahoo - Режим доступа: (дата обращения: 8.04.2014);

18. Поисковая система Байду. ЦИТ-Форум - журнал о поисковых системах. - [Электронный ресурс]. URL:http://www.cit-forum.com/baidu/poiskovaja-sistema-bajdu.html - Режим доступа: (дата обращения: 14.05.2014);

19. Поисковая машина Yandex.Ru. - [Электронный ресурс]. URL:http://spravki.se-ua.net/yandex - Режим доступа: (дата обращения: 8.04.2014);

20. Поисковая оптимизация веб страниц SEO. - [Электронный ресурс]. URL: http://creng.ru/seo/seo-poiskovaya-optimizaciya-veb-stranic - Режим доступа: (дата обращения: 8.04.2014);

21. Просвещение W3. Google. - [Электронный ресурс]. URL: http://w3pro.ru/tematika/google - Режим доступа: (дата обращения: 8.04.2014);

23. Сахарова, Е. В. Информатика. Методические указания / Е. В. Сахарова.- Ставрополь: СТИС, 2011.- 200 с.

24. Схемы и рисунки ИПС - [Электронный ресурс]. URL: http://ssofta.narod.ru/bd/ets2.htm - Режим доступа: (дата обращения: 10.05.2014).

25. Структура и классификация автоматизированных информационных систем - [Электронный ресурс]. URL: http://do.rksi.ru/library/courses/opais/tema1_3.dbk - Режим доступа: (дата обращения: 8.12.2011).

26. Терехов, И. В. Автоматизированные информационные системы в образовании и науке [Электронный ресурс]: семинар / И. В. Терехов: М.-2009. http://ou.tsu.ru/seminars/sem13/tezis/section6.htm - Режим доступа: (дата обращения: 8.12.2011).

27. Чурсин, Н. А. Популярная информатика / Н. А. Чурсин.- М.: «Вильямс», 2011.- 300 с.

28. Якубайтис, Э. А. Информатика – электроника- сети / Э. А. Якубайтис.- М.: «Финансы и статистика», 2010.- 300 с.

Приложение А

Блок	Действие	Яндекс			Google.com
		Общая формула	Пример	Общая формула		Пример
Базовые операторы, уточняющие запрос	Строго все слова запроса	+	оптимизация + продвижение + интернет-реклама	+		keyword +content +SEO

	Поиск документа, в котором не содержится слов после знака	~~	карта памяти ~~купить	-		keywordcontent -SEO

	Ищет любое из слов запроса	\|	оптимизация \| продвижение \| интернет-реклама	OR		keywordcontent OR phrase

	Ищет точное вхождение запроса	" "	"контент провайдеры обеспечивают"	" "		"keywordsinthecontent"

	Замена любого слова			*		google *

	Числовой интервал поиска			. .		google 10..100

	Слова запорсавстречаются в одном предложении		ключевик& контент

	Слова запроса находятся на одной странице		ключевик&& контент

	Слова на расстояние указанного числа слов	/2	ключевик /2 контент

	Поиск без учета морфологии	!	!контент

Информация	Погода в своем городе	Погода	погода	-
	Погода в каком-либо городе	погода [город]	погода Тула	weather [город]		weatherTula

	Пресс-портреты	[имя фамилия]	Сергей Брин	-

	Новости	-		news [запрос]		newsobama

	Маркет	[название продукта]	glofiish x600	-

	Финансовые и биржевые показаетли	-		[биржевое обозначение компании]		goog

	Адрес собственного IP	мой ip	мой ip	-
		мой айпи	мой айпи	-

	Карта по адресу	[адрес]	Тула проспект Ленина 125	[адрес]		875 n Michigan ave Chicago il
	Карта города	[город] карта	Москва карта	[город]		moscow

	Расписание самолетов, поездов	[город][город] расписание	Москва Киев поезд расписание	[название авиалиний номер рейса]		Americanairlines 18

	Химический элемент	[название элемента]	вольфрам	-

Определение, перевод	Словарное определение	[запрос] это	интернет это			-
		что такое [запрос]	что такое интернет	whatis [запрос]		whatisinternet
		-		define:[запрос]		define:internet

	Перевод	[запрос] по-английски	медведь по-английски	-
		[запрос на иностранном языке] перевод	bluewater перевод	-

Конвертация и калькулятор	Конвертация меры длины	[мера]	3 дюйма	[мера]		3 miles

	Конвертация меры веса	[мера]	5 фунтов	[мера]		5 pounds

	Конвертация меры объема	[мера]	2 галлона	[мера]		2 gallons

	Конвертация температуры	-				86 fahrenheitincelsius

	Конвертация в другую систему счисления	-		inbinary - двоичная		16 inbinary
		-		inoctal - 8ричная		16 inoctal
		-		indecimal - десятичная		0×11 indecimal
		-		inhex - 16ричная		16 inhex

	Конвертация из арабских цифр в римские	-		inroman		2009 inroman

	Конвертация валюты	-		in		150 GBP in USD

	Курс валют	[валюта] [валюта] курс	доллар евро курс	[валюта] [валюта] rate		dollareurorate

	Корень квадратный	-		squareroot; sqrt		squareroot 4 andsqrt 4
	Корень большей степени	-		throotof		5th rootof 32

	Процент	-		% of		45% of 39

	Синус, косинус, тангенс, катангенс	-		sin		sin 45
		-		cos		cos 0
		-		tan		tan 90
		-		ctan		ctan 45

	Факториал	-		!		5!

	Логарифм	-		ln(x)		ln(15)
	Десятичный логарифм	-		log(x)		log(500)

Ссылки	Поиск бэков	-		link:url		link:seonews.ru

	Поиск всех слов запроса в анкоре	-		allinanchor:[запрос]		allinanchor:keyword
	Поиск первого слова запроса в анкоре	-		inanchor:[запрос]		inanchor:keywordcontent

Поиск с ограничениями	Поиск определенного типа файла	mime="тип файла"	ключевые слова mime="pdf"	filetype:[тип файла]		keywordfiletype:pdf

	Поиск по сайту	url="url"	google url="www.seonews.ru/*"	site:url		finance site:www.google.com

	Поиск всех слов запроса в тайтле	title[запрос]	title[ключевое слово]	allintitle:[запрос]		allintitle:keyword
	Поиск первого слова запроса в тайтле, остальных - в документе			intitle:[запрос]		intitle:keywordcontent

	Поиск документов на определенном языке		keyword

Просмотров работы: 38076

Код для цитирования:

VII Международная студенческая научная конференция Студенческий научный форум - 2015

СРАВНЕНИЕ ВОЗМОЖНОСТЕЙ ПОПУЛЯРНЫХ ИНФОРМАЦИОННО-ПОИСКОВЫХ СИСТЕМ

Студенческий научный форум - 2015
VII Международная студенческая научная конференция