Рассмотрим пример морфологического анализа произведений русскоязычных авторов на примере книг Бориса Акунина «Азазель», «Левиафан», «Смерть Ахиллеса», «Статский советник», «Турецкий гамбит».
Пример анализа упомянутых произведений Бориса Акунина программой «Морфология» показан на рисунках 1-5.
Рисунок 1. «Азазель»
Рисунок 2. «Левиафан»
Рисунок 3. «Смерть Ахиллеса»
Рисунок 4. «Статский советник»
Рисунок 5. «Турецкий гамбит»
В результате анализа мы получили абсолютные значения морфологических признаков для каждого произведения.
Сводим все данные по произведениям в таблицу «Абсолютный показатель» (рисунок 5)
Рисунок 6. Абсолютный показатель
Учитывая, что общее количество слов в произведениях автора значительно отличается от произведения к произведению, будем оперировать с относительными (частотными) значениями. Таким образом, высчитываем «Относительный показатель» (рисунок 7) кол-во/кол-во слов
Рисунок 7. Относительный показатель
Рассчитаем усредненные морфологические относительные значения в целом для рассмотренных произведений автора. Считаем усредненные параметры (рисунок 8), суммируя кол-во и деля на кол-во произведений
Рисунок 8.
Строим диаграммы по абсолютному и относительному показателям (рисунок 9, рисунок 10)
Рисунок 9
Рисунок 10
Проанализировав 5 произведений Бориса Акунина, можно выявить закономерность того, что произведения одного и того же автора будут иметь близкие морфологические признаки и, следовательно, могут быть использованы в качестве векторного критерия оценки авторского стиля.
Пример определения авторского стиля для базы данных сформированной на основе произведения семи авторов (Стругацкие, Левицкий, Перумов, Пехов, Акунин, Абрамов, Прилепин ) показан на рисунке 11.
Автор Параметр |
Стругацкие |
Левицкий |
Перумов |
Пехов |
Акунин |
Абрамов |
Прилепин |
Левицкий новое |
|
Кол-во сущ. Муж. Рода |
0,11 |
0,15 |
0,13 |
0,14 |
0,14 |
0,12 |
0,11 |
0,16 |
|
Кол-во сущ.жен. Рода |
0,07 |
0,11 |
0,09 |
0,09 |
0,09 |
0,11 |
0,10 |
0,11 |
|
Кол-во сущ. Сред.рода |
0,04 |
0,04 |
0,03 |
0,05 |
0,04 |
0,04 |
0,03 |
0,04 |
|
Кол-во сущ.муж-жен рода |
0,00 |
0,00 |
0,00 |
0,00 |
0,00 |
0,00 |
0,00 |
0,00 |
|
Кол-во глаголов |
0,15 |
0,18 |
0,15 |
0,18 |
0,15 |
0,16 |
0,17 |
0,19 |
|
Кол-во деепричастий |
0,01 |
0,02 |
0,02 |
0,02 |
0,01 |
0,01 |
0,03 |
0,02 |
|
Кол-во причастий |
0,01 |
0,02 |
0,02 |
0,02 |
0,02 |
0,01 |
0,02 |
0,02 |
|
Кол-во прилагательныйх |
0,09 |
0,10 |
0,11 |
0,11 |
0,11 |
0,09 |
0,11 |
0,10 |
|
Кол-во наречий |
0,13 |
0,11 |
0,12 |
0,12 |
0,11 |
0,12 |
0,13 |
0,12 |
|
Кол-во императивов |
0,01 |
0,01 |
0,02 |
0,01 |
0,01 |
0,02 |
0,01 |
0,01 |
|
Кол-во междометий |
0,06 |
0,05 |
0,05 |
0,05 |
0,06 |
0,06 |
0,05 |
0,06 |
|
Кол-во предлогов |
0,09 |
0,12 |
0,08 |
0,10 |
0,10 |
0,12 |
0,10 |
0,12 |
|
Кол-во союзов |
0,12 |
0,09 |
0,12 |
0,10 |
0,11 |
0,13 |
0,10 |
0,10 |
|
кол-во местоимений |
0,20 |
0,12 |
0,16 |
0,17 |
0,13 |
0,15 |
0,14 |
0,12 |
|
0,0115 |
0,1143 |
0,0115 |
0,0780 |
0,0598 |
0,0618 |
0,0702 |
0,0618 |
||
Нет |
Да |
Нет |
Нет |
Нет |
Нет |
Нет |
В правой колонке приводится вектор морфологических признаков анализируемого произведения. В нижней строке показаны результаты анализа. Видно, что в данном примере распознавание 100% (авторский стиль - Левицкий).
Библиографический списокАвтоматический анализ текста TextAnalyst 2.0[Электронный ресурс]: MicroSystem. Персональная система автоматического анализа текста TextAnalyst, 2012. URL: http://www.analyst.ru
Латентно-семантический анализ (ЛСА) [Электронный ресурс]: Википедия, 2011. URL: wikihttp://ru.wikipedia.org/wiki
Мешков В.Е., Мешкова Е.В. Определение авторского стиля на основе статистическо-морфологического анализа произведения. Теория операторов, комплексный анализ и математическое моделирование: Тезисы докладов XIII Международной научной конференции (пос. Дивноморское, 7-14 сентября 2016г.). – Владикавказ: ЮМИ ВНЦ РАН, 2016. – 257с.
Теория операторов, комплексный анализ и математическое моделиро-
вание: тезисы докладов XIII Международной научной кон еренци