ИССЛЕДОВАНИЕ И РАЗРАБОТКА АЛГОРИТМОВ АНАЛИЗА НЕСТРУКТУРИРОВАННОЙ И СЛАБОСТРУКТУРИРОВАННОЙ ИНФОРМАЦИИ - Студенческий научный форум

IX Международная студенческая научная конференция Студенческий научный форум - 2017

ИССЛЕДОВАНИЕ И РАЗРАБОТКА АЛГОРИТМОВ АНАЛИЗА НЕСТРУКТУРИРОВАННОЙ И СЛАБОСТРУКТУРИРОВАННОЙ ИНФОРМАЦИИ

Гнатюк Е.С. 1, Рыбанов А.А. 1
1Волжский политехнический институт (филиал) ВолгГТУ
 Комментарии
Текст работы размещён без изображений и формул.
Полная версия работы доступна во вкладке "Файлы работы" в формате PDF
В связи с активным развитием информационных технологий, которые вошли абсолютно во все сферы бизнеса и ИТ-сферы, актуальной стала задача обработка неструктурированной и слабоструктурированной информации, представленной в самых различных её видах, такие как видео, аудио, речь, ФИО, строка с адресом, текст в прайс-листе, с целью извлечения из нее необходимой информации для быстрой и эффективной работой с ней.

Для извлечении данных, информацию необходимо извлечь системой обработки. Под системой обработки информации понимается совокупность средств и методов получения и преобразования информации, позволяющая на основе исходных данных получить совокупность выходных показателей, необходимых для анализа, контроля, планирования, управления. Создание систем преобразования, анализа, управления и обработки информации, позволяющих осуществлять комплексную оценку различного рода информации, поступающей из различных источников, собираемой и создаваемой в процессе функционирования сложных технических, экономических и социальных систем.

Многие коммерческие и некоммерческие организации ведут мониторинг отзывов и выполняют оценку качества своей деятельности на ее основе. Для решения задачи поиска и извлечения информации разработано множество программных продуктов и систем, некоторые из них представлены анализу в данной работе.

Архитектуры данных систем в настоящее время находятся на этапе бурного развития, т.к. применение подобных систем открывает более широкие аналитические возможности для исследования сложных предметных областей. Поэтому тематика данной работы, посвященная исследованию и разработке алгоритмов анализа неструктурированной и слабоструктурированной информации, является актуальной.

Целью данной работы является исследование и разработка системы анализа неструктурированной и слабоструктурированной информации.

Для достижения поставленной цели необходимо решение следующих исследовательских задач:

1. Провести обзор проблем в области анализа и неструктурированной и слабоструктурированной информации.

2. Выполнить математическое описание методов анализа неструктурированной и слабоструктурированной информации.

3. Разработать алгоритмы и программную реализацию системы анализа неструктурированной и слабоструктурированной информации.

4. Провести оценку эффективности предлагаемого математического описания, алгоритмов и точность анализа данных.

К неструктурированным относятся данные, произвольные по форме, включающие тексты и графику, мультимедиа (видео, речь, аудио). Эта форма представления данных широко используется, например, в Интернете, а сами данные предоставляются пользователю в виде отклика поисковыми системами [1].

Слабоструктурированные данные — это данные, для которых определены некоторые правила и форматы, но в самом общем виде. Например, строка с адресом, строка в прайс-листе, ФИО и т. п. В отличие от неструктурированных, такие данные с меньшими усилиями преобразуются к структурированной форме, однако без процедуры преобразования они тоже непригодны для анализа по каким-либо признакам с целью выполнения некоторых действий над элементом [2].

Система анализа неструктурированной и слабоструктурированной информации может быть использована для широкого круга задач поиска и извлечения информации, а также для организаций, которые ведут мониторинг отзывов и выполняют оценку качества своей деятельности на ее основе.

СПИСОК ЛИТЕРАТУРЫ:

  1. Журавлев Ю.И., Рязанов В.В., Сенько О.В. Распознавание. Математические методы. Программная система. Практические применения. — М.: Фазис, 2014.

  2. Хачумов М.В. Задача кластеризации текстовых документов. — Информационные технологии и вычислительные системы, № 2, 2013.

  3. Кириченко К.М, Герасимов М.Б. Обзор методов кластеризации текстовой информации. – Режим доступа : http://www.dialog-21.ru/Archive/2001/volume2/226.htm

Просмотров работы: 272