РАЗРАБОТКА ИНФОРМАЦИОННОЙ СИСТЕМЫ, ОСУЩЕСТВЛЯЮЩЕЙ ОЦЕНКУ КАЧЕСТВА ТЕКСТОВОГО ВЕБ КОНТЕНТА - Студенческий научный форум

VII Международная студенческая научная конференция Студенческий научный форум - 2015

РАЗРАБОТКА ИНФОРМАЦИОННОЙ СИСТЕМЫ, ОСУЩЕСТВЛЯЮЩЕЙ ОЦЕНКУ КАЧЕСТВА ТЕКСТОВОГО ВЕБ КОНТЕНТА

Деменко А.В. 1, Рыбанов А.А. 1
1Волжский политехнический институт (филиал) ФГБОУ ВПО "Волгоградский государственный технический университет"
 Комментарии
Текст работы размещён без изображений и формул.
Полная версия работы доступна во вкладке "Файлы работы" в формате PDF

РАЗРАБОТКА ИНФОРМАЦИОННОЙ СИСТЕМЫ, ОСУЩЕСТВЛЯЮЩЕЙ ОЦЕНКУ КАЧЕСТВА ТЕКСТОВОГО ВЕБ КОНТЕНТА

Деменко А.В., научный руководитель Рыбанов А.А.

Волжский политехнический институт (филиал) ФГБОУ ВПО "Волгоградский государственный технический университет"

Волжский, Россия

RESEARCH OF SOFTWARE TO ACCESS THE QUALITY OF A TEXT WEB CONTENT

Demenko Alexander Vitalievich, scientific director Rybanov Aleksander Aleksandrovich

Volzhskiy Polytechnical Institute, branch of the Volgograd State Technical University

Volzhskiy, Russia

Одна из задач, возникающих при оценке качества веб ресурса,- количественная оценка качества его текстового наполнения. Для оценки текстового контента используются методы квантитативной лингвистики. Квантитативная лингвистика (quantitative linguistics) - одно из направлений прикладной лингвистики, которое занимается изучением языка с помощью статистических методов [1]. Преимуществом квантитативных методов изучения текстов является их точность и однозначность результатов. Расчет квантитативных характеристик текста необходим для решения следующих проблем: определение стилевых и жанровых характеристик текстов, с целью последующей их классификации [2]; изучение образцов текстов, c целью установление авторства [3, 4].

Для оценки качества текстового контента необходимо вычисление следующих параметров: плотность употребления ключевых слов; водность текста; удобочитаемость.

Целью работы является процесс улучшения текстового контента сайта. Была разработана программа оценки квантитативных характеристик контента, в частности индекса удобочитаемости Ганнинга и водности текста.

Плотность употребления ключевых слов текста рассчитывается как , где w- число употреблений самого частотного слова контента страницы. Значение влияет на рейтинг веб ресурса. Оптимальным значением считается 5%, если значение, ниже 5 % – снижается релевантность, выше – повышается заспамленность текста [5].

Водность текста – это процент содержания в нем ничего не значащих, не несущих полезной информации слов (стоп-слов). Максимально допустимым показателем водности можно считать 60%. Оптимальный показатель от 15% до 30% [6].

Индекс туманности Ганнинга используется как индикатор для определения уровня удобочитаемости текста. Значение индекса находится в диапазоне от 6 до 19 -соответствует году обучение читателя [7]. Индекс Ганнинга определяется следующим образом:

.

Для расчета рассмотренных выше параметров необходима библиотека морфологического анализа, и, в качестве такой, была выбрана библиотека PHPMorphy. Библиотека PHPMorphy позволяет решать следующие задачи необходимые в ходе реализации проекта: лемматизация (получение нормальной формы слова); получение всех форм слова [4].

Произведя анализ данной статьи, при помощи разработанной программы и аналогов найденных в интернете, были получены квантитативные характеристики, представленные в таблице 1.

Таблица 1

Полученные параметры

 

Плотность употребления ключевых слов

Водность

Индекс Ганнинга

Модуль оценки качества текстового контента

14.1%

10.8

http://istio.com

6.1%

26%

http://text.ru

7%

MS Word

12.1

http://advego.ru

4.32%

53%

Различие полученных данных обуславливается, различными алгоритмами работы систем и использование различных библиотек морфологического анализа.

На основе полученных данных можно сделать вывод о том, что данная статья содержит допустимый процент водности(15-30%), а именно 15%, что значит что статья насыщенна информацией и в ней не превышено количество ничего не значащих слов. Индекс удобочитаемости показывает уровень сложности текста равный 11 – уровень читабельности для студента.

Список использованной литературы

  1. Кащеева А.В. Квантитативные и качественные методы исследования в прикладной лингвистике. Социально-экономические явления и процессы. 2013. № 3 (049) С. 155-162.

  2. Журавлев А.Ф. Опыт квантитативно-типологического исследования разновидностей устной речи. Разновидности городской устной речи. Сборник научных трудов. - М.: Наука, 1988, С. 84-150.

  3. Верхозин С.С. К вопросу о лингвотеоретических основах методик авторизации текста. Ученые записки Забайкальского государственного университета. Серия: Филология, история, востоковедение. 2013. № 2 (49) С. . 22-27.

  4. Рыбанов А.А. Количественные метрики для оценки качества квантования учебной информации // Педагогические измерения. 2013. № 4. С. 3-12.

  5. http://www.semonitor.ru/manual/5.1-density.html

  6. http://text.ru/seo/

  7. http://gtmarket.ru/laboratory/expertize/2006/2643

Просмотров работы: 896