ПРИМЕНЕНИЕ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ В АНАЛИЗЕ ПОЧЕРКА ДЛЯ ВЫЯВЛЕНИЯ ПСИХОФИЗИОЛОГИЧЕСКИХ СВОЙСТВ ЛИЧНОСТИ

Дружинина Н.А. 1, Репинский В.Н. 1

1Московский технический университет связи и информатики

Текст работы размещён без изображений и формул.
Полная версия работы доступна во вкладке "Файлы работы" в формате PDF

В статье проводится исследование системы, которая предназначена для решения задач, связанных с графологическим анализом для предсказания и прогнозирования характеристик личности. Основное внимание уделяется признакам, таким как размер букв, наклон букв и слов, базовая линия и их классификация. Работа выполнена в рамках курсового проекта по дисциплине «Machine learning».

Анализ почерка – это трудоемкий и сложный процесс, предназначен для определения психофизиологических свойств личности и прогнозирования его поведения. Может потребоваться несколько часов или даже дней, чтобы проанализировать страницу рукописного текста, в зависимости от детализации и полноты требуемого отчета. Для каждого почерка необходимо провести серию различных оценок, которые включают в себя такие факторы как размер букв, наклон букв и слов, исходный уровень, давление пера, расстояние между буквами и расстояние между словами в документе, в связи с этим возникла необходимость компьютеризации анализа почерка.

По сравнению с методом ручного анализа рукописного текста, автоматический анализ почерка более быстрый и точный. Уровень точности анализа почерка полностью зависит от знаний и опыта графолога, в автоматическом методе прогнозирования анализа почерка применяют три основных этапа: предварительная обработка, извлечение объектов и классификация.

Детально опишем этапы и их последовательность действий:

получение рукописных изображений

предварительная обработка почерка изображения

сегментация почерка изображения

выделение признаков

обучение и тестирование

результаты и обсуждение

Этап 1. Получение базы данных изображений рукописного текста

В этом исследовании используются 100 образцов изображений рукописных текстов разных людей. Каждому человеку было предложено написать текстовый документ из простых 70-80 слов, образцы были написаны на обычной нелинованной бумаге без каких-либо полей, далее были собраны в базу данных путем сканирования.

Этап 2. Предварительная обработка почерка изображения

На этапе предварительной обработки изображения рукописного текста происходит удаление шума путем применения локального порога и последующего изменения размера выборки до правильной ориентации. Предварительная обработка включает в себя открытие цифрового изображения, а затем его сглаживание. Открытие удаляет ненужные символы, знаки в цифровом документе. Следующий процесс заключается в сегментировании цифрового документа, таких как сегменты слов, сегменты букв и сегменты линий. На рис. 1 показана сегментация слов в документе.

Рис. 1 – Сегментация слов в документе

Этап 3. Сегментация почерка изображений

В сегментировании изображения рукописного текста почерк сегментируется на три разных типа: сегментация слов, сегментация букв и сегментация строк, каждая из которых используется для различной обработки.

Сегментация слов

Этот процесс используется для сегментации слов в цифровом документе рукописного текста для расчета функций, связанных со словами, указывающими на склонность к критике и аргументации.

Сегментация букв

Здесь сегментация выполняется на каждой букве слова в цифровом документе рукописного текста каждого человека. Эта сегментация используется при вычислении признаков, связанных с буквой для прогнозирования личности. Сегментация букв используется для вычисления различных наклонов в буквах, указывающих на открытость чувств.

Сегментация строк

Сегментация линии используется для определения исходных характеристик, чтобы судить об эмоциональной стабильности и диспозициях личности в начале письма. Затем сегментированное изображение обрабатывается для математического вычисления численных значений для классификации личности по психологическим факторам.

Этап 4. Выделение признаков

Извлечение функций - это метод уменьшения размерности из высокоразмерных входных данных. Эти уменьшенные выходные данные представляют собой преобразование входных данных с высоким размером, представленных как вектор признаков.

Признак 1. Размер букв

Размер букв в документе представляет собой желание автора быть замеченным. Крупный почерк указывает на то, что автор хочет сказать «заметьте меня», в случае размера мелкого почерка автор менее желателен, чтобы его заметили. Средний размер почерка указывает на желание быть вписанным в окружающий мир. Буквы делятся на три зоны: нижний регистр или зона (например, д, y), верхний регистр или зона (например, б, в), средний регистр или зона (например, a, c, e). Рис 2, объясняет это более наглядно.

Рис. 2 - Структурные элементы почерка [2, 18 c.]

а – нижняя зона; б – средняя зона; в – верхняя зона; г – верхняя петля; д – начальный штрих; е – конечный штрих; ж – нижняя граница строки; з – интервал между словами; и – база строки; к – межбуквенный интервал; л – нижняя петля

Признак 2. Наклон слов и букв

Наклон в почерке указывает на эмоциональные взаимодействия личности. Существует три класса наклона: правый наклон, левый наклон и вертикальный. Для вычисления наклона используется тригонометрическая формула:

(1)

Где θ - расчетный угол для точек (x₁, y₁) и (x₂, y₂).

Рис. 3 – определение наклона букв

Признак 3. Базовая линия

Базовая линия - это функция, которая раскрывает большое количество информации относительно характера личности. Базовая линия в почерке - это воображаемая линия, вдоль которой человек выравнивает написанные им буквы и слова. Базовая линия отвечает за эмоциональную стабильность, личность оценивают по исходному уровню в почерке, как показано на рис.4

Рис. 4 – определение базовой линии

Этап 5. Обучение и тестирование

Используемый в исследовании классификатор - метод опорных векторов, позволяет добиться высоких результатов с большей точностью при помощи анализа данных и распознавания шаблонов.

Для оценки эффективности используется тестовая выборка, состоящая из 30% от исходной, примеры из тестовой выборки не пересекаются с примерами из обучающей выборки. Для определения точности классификации, необходимо выполнить сравнение полученного значения класса нейронной сети с тестовым набором. Для тестирования классификации используется функция «predict»[2].

На рис. 5 изображен образец исследуемого почерка по признакам (размер букв, наклон и базовая линия).

Рис. 5 – Образец исследуемого почерка

В проведенном эксперименте использовались две трети образцов данных почерка и их психологические результаты для изучения системы, оставшаяся третья часть образцов данных почерка проверялась на точность. В таблице 1 показаны критерии классификации стилей написания, точность обучения и полученное значение по признакам исследуемого образца.

Таблица 1 - результаты работы

№	Признаки	Критерии классификации	Полученное значение	Точность
	Размер букв	очень большой; большой; средний; маленький; очень маленький.	3,4152 мм большой	74,8%
	Наклон букв	правый наклон: θ > θ₀ левый наклон: θ < θ₀ вертикальный почерк: θ = θ₀	109º правый наклон	68,3%
	Базовая линия	строка, поднимается вверх: θ > 0 строка, спускается вниз: θ < 0 прямая линия: θ = 0	Строка, спускается вниз	71,9%

В общем случае точность классификации может повыситься с помощью увеличения размера обучающей выборки. Рассматриваемая автоматическая система может быть расширена дополнительными признаками и использоваться для обнаружения заболеваний, таких как болезнь Паркинсона, через изменение характеристик, полученных в течение определенного периода времени. Кроме того, система может использоваться в аутентичности документа и выявлении подделки, так как фальсификатор никогда не сможет полностью воспроизвести все оригинальные черты личности.

Список используемой литературы и источников

Л.И. Воронова, В.И. Воронов. Machine Learning: Регрессионные методы интеллектуального анализа данных: учебное пособие – МТУСИ, 2017 – 81 с.

Чернов Ю.Г. Анализ почерка в работе с кадрами, 2011 – 464 с.

Andrew Ng Machine Learning - https://www.coursera.org/learn/machinelearning

Champa H N, K R AnandaKumar, “ Rule Based Approach for Personality Prediction Through Handwriting Analysis”, 2nd International Conference on Biomedical Informatics and Signal processing, organized by Sai„s BioSciences Research Institute Pvt. Ltd., 2013

Hua Hu, Jing Ye, Chunlai Chai, “A Talent Classification Method Based on SVM”, International Symposium on Intelligent Ubiquitous Computing and Education 2009 – 163 с.

Champa H. N., Dr. K. R. AnandaKumar, “Artificial Neural Network for Human Bahavior Prediction through Handwriting Analysis”, International Journal of Computer Applications (0975-8887) Volume 2 – No.2, May 2015.

Просмотров работы: 229

Код для цитирования:

X Международная студенческая научная конференция Студенческий научный форум - 2018

ПРИМЕНЕНИЕ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ В АНАЛИЗЕ ПОЧЕРКА ДЛЯ ВЫЯВЛЕНИЯ ПСИХОФИЗИОЛОГИЧЕСКИХ СВОЙСТВ ЛИЧНОСТИ

Студенческий научный форум - 2018
X Международная студенческая научная конференция