ПРИМЕНЕНИЕ DATA MINING В МЕДИКО-ПСИХОЛОГИЧЕСКИХ ИССЛЕДОВАНИЯХ - Студенческий научный форум

V Международная студенческая научная конференция Студенческий научный форум - 2013

ПРИМЕНЕНИЕ DATA MINING В МЕДИКО-ПСИХОЛОГИЧЕСКИХ ИССЛЕДОВАНИЯХ

Дзюра А.Е. 1, Берестнева Е.В. 1
1Томский Политехнический Университет
 Комментарии
Текст работы размещён без изображений и формул.
Полная версия работы доступна во вкладке "Файлы работы" в формате PDF

Введение

Развитие методов записи и хранения данных привело к бурному росту объемов собираемой и анализируемой информации. Объемы данных настолько внушительны, что человеку просто не по силам проанализировать их самостоятельно, хотя необходимость проведения такого анализа вполне очевидна, ведь в этих «сырых» данных заключены знания, которые могут быть использованы при принятии решений. Для того чтобы провести автоматический анализ данных, используется Data Mining.

Data Mining – это процесс обнаружения в «сырых» данных ранее неизвестных нетривиальных практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.

Информация, найденная в процессе применения методов Data Mining, должна быть нетривиальной и ранее неизвестной. Знания должны описывать новые связи между свойствами, предсказывать значения одних признаков на основе других и т.д. Найденные знания должны быть применимы и на новых данных с некоторой степенью достоверности. Полезность заключается в том, что эти знания могут приносить определенную выгоду при их применении.

С возрастанием количества накапливаемых данных, даже при использовании сколь угодно мощных и разносторонних алгоритмов Data Mining, становится все сложнее анализировать и интерпретировать полученные результаты. А, как известно, одно из положений Data Mining - поиск практически полезных закономерностей. Закономерность может стать практически полезной, только если ее можно осмыслить и понять.

Алгоритмы, используемые в Data Mining, требуют большого количества вычислений. Раньше это являлось сдерживающим фактором широкого практического применения Data Mining, однако сегодняшний рост производительности современных процессоров снял остроту этой проблемы. Теперь за приемлемое время можно провести качественный анализ сотен тысяч и миллионов записей.

Была поставлена задача оценки мотивационного профиля студентов при помощи метода лиц Чернова и при помощи факторного анализа, используя статистический пакет Statistica и Statgraphics, оценить, сделать выводы по каждой из шкале мотивационного профиля, обнаружить новые связи, закономерности в исходных данных.

Задачи, которые необходимо решить в данной работе:

- создание модели общего мотивационного развития в процессе обучения или профессионального становления;

- получить результат при помощи метода лиц Чернова в программе Statistica;

- получить результат при помощи факторного анализа в программе Statgraphics;

- сравнить, проанализировать полученные результаты;

Обнаружение новых связей, закономерностей в исходных данных в сфере социально-психологического анализа позволит лучше узнать человека, своевременно знать о его целях и планах на будущее.

1. Обзор литературы

Перед человечеством всегда стояла проблема восприятия и осознания большого объёма информации. Так, например, путешественникам необходимо было помнить большое количество названий городов, их координат, маршрутов перемещения между ними и т.д. Чтобы ознакомиться с этой информацией, представленной в виде текста, требовалось затратить много времени. В связи с этим путешественники стали представлять текстовую информацию о географическом местонахождении населённых пунктов и других важных объектов на земной поверхности в виде образов. Впоследствии данные образы стали называть географическими картами. Такое представление географических данных даёт возможность отобразить большое количество информации с помощью одного образа, который позволяет за короткий промежуток времени найти необходимый объект и маршрут перемещения к нему. Отсюда можно сделать вывод, что графический способ представления информации даёт возможность эффективно воспринимать и анализировать её.

В дальнейшем, графическое представление информации стало использоваться при решении задач в различных областях технических наук. Например, для решения системы уравнений (*) можно использовать графическое представление уравнений, изображённых на координатной плоскости (рис. 1). Каждое из двух уравнений в графическом виде представляет собой бесконечное множество точек, расположенных на одной прямой линии. Решением системы (*) являются координаты точки, входящей в оба множества для двух уравнений.

Рис. 1. Графическое решение алгебраической системы уравнений

С помощью графического образа, представленного на рисунке 1, можно решить задачу поиска координаты точки пересечения двух прямых на основе образного представления условия задачи, без использования математических подходов [1].

Необходимо сказать, что существует различие в работе полушарий мозга человека. Обработка символьной информации производится левым полушарием мозга человека. Правое полушарие мозга отвечает за обработку образной информации и интуицию человека [2]. Поэтому, если удачно представить входные данные какой-либо задачи в виде рисунка, когнитивного образа, то при анализе этой информации правым полушарием мозга будет включен интуитивный механизм мышления и ответ может быть найден без сложных вычислений с помощью интуиции человека. Для того чтобы представить условия задачи в графическом виде подойдет не каждый графический образ, а только такой, в котором можно удачно сопоставить каждое из условий задачи отдельной части изображения. Выбранный графический образ должен позволять лицу, принимающему решение (ЛПР), использовать свойства выбранного абстрактного изображения для визуального решения поставленной задачи.

Область Data Mining началась с семинара (англ. workshop), проведёного Григорием Пятецким-Шапиро в 1989 году.[3]

Ранее, работая в компании GTE Labs, Григорий Пятецкий-Шапиро заинтересовался вопросом: можно ли автоматически находить определённые правила, чтобы ускорить некоторые запросы к крупным базам данных. Тогда же было предложено два термина — Data Mining (который следует переводить как «раскопка данных») и Knowledge Discovery In Data (который следует переводить как «открытие знаний в базах данных»).

В 1993 году вышла первая рассылка «Knowledge Discovery Nuggets», а в 1994 году был создан один из первых сайтов по Data Mining.

Основу методов Data Mining составляют всевозможные методы классификации, моделирования и прогнозирования, основанные на применении деревьев решений, искусственных нейронных сетей, генетических алгоритмов, эволюционного программирования, ассоциативной памяти, нечеткой логики. К методам Data Mining нередко относят статистические методы (дескриптивный анализ, корреляционный и регрессионный анализ, факторный анализ, дисперсионный анализ, компонентный анализ, дискриминантный анализ, анализ временных рядов). В своей работе я использовала метод Лиц Чернова и факторный анализ.

Из всех зрительных навыков у человека сильнее всего развита способность к восприятию лиц других людей. Особый участок коры головного мозга узнает лицо, определяет направление взгляда и т.д. Другие части мозга (миндалевидное тело и островковая доля) анализируют выражение лица, а участок в префронтальной зоне лобной доли и система мозга, отвечающая за чувство удовольствия, оценивают его красоту. Лица Чернова (Chernoff Faces) — это схема визуального представления мультивариативных данных в виде человеческого лица. Каждая часть лица: нос, глаза, рот — представляет собой значение определенной переменной, назначенной для этой части.

Основная идея в том, что для человека очень естественно смотреть на лица, ведь все люди делают это каждый день. Поэтому анализ данных получается «натуралистичным». Легко делать сравнения и легко выявлять отклонения.

Сложность заключается в правильном сопоставлении исследуемых переменных с частями лица. При ошибке важные закономерности могут остаться незамеченными.

Итак, каждое лицо — это массив из 18 элементов, каждый из которых принимает значение от 0 до 1. Значению соответствует внешний вид соответствующей части лица [4,5].

Факторный же анализ выявляет скрытые переменные факторы, отвечающих за наличие линейных статистических связей корреляций между наблюдаемыми переменными [6].

Например, анализируя оценки, полученные по нескольким шкалам, исследователь замечает, что они сходны между собой и имеют высокий коэффициент корреляции, он может предположить, что существует некоторая латентная переменная, с помощью которой можно объяснить наблюдаемое сходство полученных оценок. Такую латентную переменную называют фактором. Данный фактор влияет на многочисленные показатели других переменных, что приводит нас к возможности и необходимости выделить его как наиболее общий, более высокого порядка.

Факторный анализ впервые возник в психометрике и в настоящее время широко используется не только в психологии, но и в нейрофизиологии, социологии, политологии, в экономике, статистике и других науках. Основные идеи Факторного анализа были заложены английским психологом и антропологом, основателем евгеники Гальтоном Ф. (1822—1911), внесшим также большой вклад в исследование индивидуальных различий. Но в разработку факторного анализа внесли вклад многие ученые. Разработкой и внедрением Факторного анализа в психологию занимались такие ученые как: Спирмен Ч., Терстоун Л. и Кеттел Р. Также нельзя не упомянуть английского математика и философа Пирсона К., в значительной степени развившего идеи Ф. Гальтона, американского математика Хотеллинга Г., разработавшего современный вариант метода главных компонент. Внимания заслуживает и английский психолог Айзенк Г., широко использовавший факторный анализ для разработки психологической теории личности. Математически факторный анализ разрабатывался Хотеллингом, Харманом, Кайзером, Терстоуном, Такером и другие [7].

Исходные данные для данных методов – мотивационный профиль студентов различных вузов Томска.

В структуре личности мотивация - основное понятие, используемое для объяснения движущихся сил поведения и деятельности человека. Мотив всегда существует в деятельности человека до тех пор, пока не достигнута цель, либо изменившиеся условия не сделают другой мотив более насущным для данного человека.

Мотивация определяется у X. Хекхаузена как побуждение к действию определенным мотивом. Мотивация - процесс выбора между различными возможными действиями; процесс, регулирующий и направляющий действие на достижение специфических для данного мотива целевых состояний и поддерживающих эту направленность.

Многозначность мотивационных проявлений определяет многообразие различных методик, используемых для их психодиагностики:

  • Прямые методы психодиагностики мотивации сферы личности

  • Личностные опросники для измерения мотивов

  • Проективные методы для диагностики мотивов

К прямым методам психодиагностики мотивов относятся, прежде всего анкеты, в которых перечисляется различные по значимости для человека мотивы. Испытуемый, выбирая мотивы, располагает их в порядке значимости.

Проективные методы направлены на анализ продуктов воображения и фантазий. Факты, полученные в психологии, говорят о том, что мотивации достижение успехов и избежание неудач являются важными и относительно независимыми видами человеческой мотивации. От них во многом зависит судьба и положение человека в обществе.

Замечено, что люди с сильно выраженным стремлением к достижению успехов добиваются в жизни гораздо большего, чем те, у кого такая мотивация слаба или отсутствует.

Для более полной оценки перспектив общего мотивационного развития в процессе обучения или профессионального становления, полезно исследовать и характер соотношения основных мотивационных тенденций, то насколько человек стремится выйти за пределы реальной житейской ситуации и стремится к самоактуализации.

Данным задачам в наиболее полной мере соответствует методика «Мотивационный профиль личности».

Заметим, что метод «Лица Чернова» довольно сложен, а его использование требует проведения большого числа экспериментов по сопоставлению черт лица с исходными данными мотивационного профиля. Вместе с тем, он является одним из наиболее эффективных методов когнитивной графики при выявлении скрытых закономерностей в разнотипных данных.

А главной проблемой факторного анализа является выделение и интерпретация главных факторов. При отборе компонент исследователь обычно сталкивается с существенными трудностями, так как не существует однозначного критерия выделения факторов, и потому здесь неизбежен субъективизм интерпретаций результатов

Факторный анализ данных относится к линейным методам снижения размерности. Этот метод направлен на нахождение нового координатного пространства , в котором каждая координатная ось является линейной комбинацией исходных признаков. Популярность данного подхода объясняется тем, что линейные комбинации признаков хорошо интерпретируются – коэффициенты в уравнениях координатных осей трактуются, например, как веса или вклады признаков.

Выводы по первой главе:

  1. Благодаря новым методам в области Data Mining можно будет обнаружить новые связи, закономерности в исходных данных.

  2. Найденные новые закономерности, связи помогут проанализировать мотивационный профиль личности.

2. Содержательная постановка задачи

Мотивационный профиль студентов – это тест, апробированный и разработанный специально для того, чтобы выявлять факторы мотивации, которые высоко оцениваются студентом, а также те факторы, которым он придает мало значения, как потенциальным источникам удовлетворения выполняемой работой. Он позволит выявить потребности и стремления студента, и, тем самым получить некоторое представление о его мотивационных факторах. В основу теста положено сопоставление значимости ряда мотивационных факторов, представляющих важность с точки зрения руководства вуза. Мотивационные факторы (внутренние факторы) - вызывают чувство удовлетворения работой, это внутренние факторы удовлетворенности, направленные на:

  1. успех, достижение (факт достижения цели),

  2. продвижение по службе,

  3. признание и одобрение результатов работы,

  4. высокая степень ответственности за выполняемое дело,

  5. возможность творческого и делового роста,

  6. сама работа (насколько она интересна, содержательна)

Шкалы мотивационного профиля:

П - поддержание жизнеобеспечения; К - комфорт; С - социальный статус; О - общение; Д - общая активность; ДР - творческая активность; ОД - общественная полезность.

Таким образом, необходимо построить лица Чернова и воспроизвести факторный анализ для каждого студента, где параметрами будут являться шкалы мотивационного профиля. На основе полученной модели выявить сделать выводы по полученным результатам.

2.1 Математическая постановка задачи

В моей работе будет применяться два метода:

  • метод Лиц Чернова

  • факторный анализ данных

Представления информации в четырехмерном и более измерениях недоступны для человеческого восприятия. Однако разработаны специальные методы для возможности отображения и восприятия человеком такой информации. Метод лиц Чернова относится к таким методам представления информации.

Основная идея представления информации в "лицах Чернова" состоит в кодировании значений различных переменных в характеристиках или чертах человеческого лица.

Для каждого наблюдения рисуется отдельное "лицо". На каждом "лице" относительные значения переменных представлены как формы и размеры отдельных черт лица.

Итак, каждое лицо — это массив из 18 элементов, каждый из которых принимает значение от 0 до 1. Значению соответствует внешний вид соответствующей части лица. Параметры исследуемых объектов приводятся к этим значениям. Экстремумы реальных данных будут приняты как 0 и 1. Все остальное — лежащим в этом промежутке. По полученному массиву конструируется лицо по следующим параметрам:

  1. Размер глаза

  2. Размер зрачка

  3. Позиция зрачка

  4. Наклон глаза

  5. Горизонтальная позиция глаза

  6. Вертикальная позиция глаза

  7. Изгиб брови

  8. Плотность брови

  9. Горизонтальная позиция брови

  10. Вертикальная позиция брови

  11. Верхняя граница волос

  12. Нижняя граница волос

  13. Обвод лица

  14. Темнота волос

  15. Наклон штриховки волос

  16. Нос

  17. Размер рта

  18. Изгиб рта

Лица Чернова представляют собой схематичное изображение лиц, определенным чертам которых соответствуют относительные значения заданных характеристик. Таким образом, разным наборам данных будут соответствовать разные выражения лиц Чернова, позволяющие получить общее представление о состоянии системы и о степени отклонений от нормы отдельных ее характеристик. Например, слишком большие глаза могут указывать на отклонение от нормы соответствующей характеристики на фоне нормы остальных. Иногда этот способ графического представления позволяет выявить скрытые картины взаимосвязей между данными, которые не могут быть обнаружены другими методами.

Допустим, что имеется некоторая таблица данных A размерностью M*N, где M – количество характеристик данных и N – количество измерений этих характеристик. Также имеется вектор X элементов лиц Чернова, соответствующий характеристикам данных. В моем случае N – студенты различных вузов, M – шкалы мотивационного профиля.

Факторный же анализ ориентирован на объяснение имеющихся между признаками корреляций. Основная модель факторного анализа записывается следующей системой равенств (Налимов В.В., 1971)

 

(1)

 

То есть полагается, что значения каждого признака могут быть взвешены суммой латентных переменных (простых факторов) , количество которых меньше числа исходных признаков, и остаточным членом с дисперсией , действующей только на , который называют спецефическим фактором.

К

(2)

оэффициенты называются нагрузкой i-й переменной на j-й фактор или нагрузкой j-го фактора на i-ю переменную. В самой простой модели факторного анализа считается, что факторы взаимно независимы и их дисперсии равны единице, а случайные величины тоже независимы друг от друга и от какого-либо фактора . Максимально возможное количество факторов m при заданном числе признаков р определяется равенством

 

,

Которое должно выполняться, чтобы задача не вырождалась в тривиальную. Данное неравенство получается на основании подсчета степеней свободы. Сумму квадратов нагрузок называют общностью соответствующего признака , и чем больше это значение, тем лучше описывается признак выделенными факторами . Общность есть часть дисперсии признака, которую объясняют факторы. В свою очередь, показывает, какая часть дисперсии исходного признака остается необъясненной при используемом наборе факторов, и данную величину называют специфичностью признака. Таким образом,

дисперсия признака = общность +специфичность ().

О

(3)

сновное выражение факторного анализа показывает, что коэффициент корреляции любых двух признаков и можно выразить суммой произведения нагрузок некоррелированных факторов

 

.

Задачу факторного анализа нельзя решить однозначно. Равенства в факторной модели не поддаются непосредственной проверке, так как p исходных признаков задается через других переменных – простых и специфических факторов. Поэтому представление корреляционной матрицы факторами, как говорят, ее факторизацию, можно произвести бесконечно большим числом способов. Если удалось произвести факторизацию корреляционной матрицы с помощью некоторой матрицы факторных нагрузок F, то любое линейное ортогональное преобразование F (ортогональное вращение) приведен к такой же факторизации. Поэтому нередко в одном и том же пакете программ анализа данных реализовано сразу несколько версий методов факторизации, и у исследователей возникает вопрос, какой из них лучше.

В настоящее время одними из наиболее популярных являются три метода вращения факторов: варимакс, квартимакс и эквимакс. Вращение методом варимакс ставит целью упростить столбцы факторной матрицы, сводя все значения в 1 или 0. Вращение методом квартимакс ставит целью аналогичное упрощение только по отношению к строкам факторной матрицы. И, наконец, эквимакс занимает промежуточное положение – при вращении факторов по этому методу одновременно делается попытка упростить и столбцы и строки.

Кроме перечисленных трех методов нередко осуществляют вращение факторов до тех пор, пока не получатся результаты, поддающиеся содержательной интрепретации. Можно, например, потребовать, чтобы один фактор был нагружен преимущественно признаками одного типа, а другой – признаками другого типа. Или, скажем, можно потребовать, чтобы исчезли какие-то трудно интерпретируемые нагрузки с отрицательными знаками. Нередко исследователи идут дальше и рассматривают прямоугольную систему факторов как частный случай косоугольной, то есть ради содержания жертвуют условием некоррелированности факторов.

В целом по факторному анализу можно отметить следующее. С помощью такого анализа снижение размерности достигается за счет существования групп взаимосвязанных признаков, которые агрегируются в строящихся факторах. Как и при использовании метода главных компонент, полезные сведения о структуре данных можно почерпнуть на основании визуального анализа проектов объектов в одно-, двух- и трехмерные пространства, образованные комбинациями различных факторов. Также ценную информацию о структуре исследуемой выборки могут дать результаты факторного анализа, проведенного раздельно в различных подгруппах объектов.

Таким образом, задачей является отобразить многомерные исходные данные и сделать выводы по полученным результатам.

Выводы по второй главе

  1. Использование метода «лица Чернова» требует проведения большого числа экспериментов по сопоставлению черт лица с исходными данными. Вместе с тем, он является одним из наиболее эффективных методов когнитивной графики.

  2. Факторный анализ – определенный класс процедур многомерного статистического анализа, направленный на выявление скрытых от непосредственного наблюдения (латентных) переменных (факторов), отвечающих за наличие линейных статистических связей (корреляций) между наблюдаемыми переменными.

  3. Для решения поставленной задачи будет использоваться метод лиц Чернова, который будет реализован в программе Statistica и факторный анализ, который будет реализован в программе Statgraphics.

  4. С помощью программ Statistica и Statgraphics будет производиться моделирование и анализ полученных данных.

3. Разработка модели для решения поставленной задачи

В последнее время с развитием науки и техники наблюдается тенденция к усовершенствованию технологий контроля качества знаний во всех областях человеческого познания. Требуется более объективно подходить к исследованиям знаний, которые накоплены человечеством и человеком в частности. Обработка огромного количества информации без подручных средств, стала для человечества невозможной. Теперь на помощь пришли компьютеры, но встала новая задача – создание универсальных программ, которые смогли бы хранить, качественно и быстро обрабатывать поступающую информацию, а так же представлять ее в виде, удобном для восприятия человеком.

Все большее использование компьютеров позволяет автоматизировать, и тем самым упростить ту сложную процедуру, которую используют психологи, преподаватели, работадатели и прочие при создании самих тестов, а так же при анализе результатов тестирования. Тем самым, выделяется ряд важнейших преимуществ компьютерного тестирования и анализа. Во-первых, это автоматизация, как самого процесса тестирования, так и хранение данных в любой необходимой форме, чем обеспечивается возможность статистического анализа. Во-вторых, это работа с практически неограниченным объемом данных. В-третьих, компьютер позволяет использовать огромный математический аппарат.

Для решения поставленной задачи необходимо было сначала изучить программный продукты Statistica и Statgraphics, исследовать их возможности. Также необходимо было собрать данные путем опроса студентов. Проанализировать полученную информацию, реализовать поставленную задачу.

Студент отвечает на пункты опросника в специальном бланке либо в диалоговом режиме при компьютерном тестировании. При использовании бланков тестирования может проводиться в групповой форме. В этом случае вопросы диктуются экспериментатором, а затем результаты заносятся в компьютер для дальнейшей обработки и анализа.

При обработке результатов ответы испытуемого переводятся в баллы по схеме, приведенной выше. Баллы суммируются по каждой подшкале; в результате сумма может варьировать от 0 до 12 баллов.

Результаты тестирования представляют собой графическое отображение мотивационного профиля по 7 шкалам, соотношение астенической и стенической составляющей в обычном состоянии и состоянии фрустрации а соотношение «реальной» и «идеальной» мотивации, а также словесную интерпретацию.

Мотивационная сфера личности это не простая иерархия потребностей мотивов, но иерархия, реализуемых человеком деятельностей, их мотивов и условий, целей и средств, планов и результатов, норм контроля и оценок.

Одновременно развивается подчиненная, по отношению самореализации, линия подержания жизнедеятельности и социального существования личности; определим ее как потребительную линию. Сюда включаются: удовлетворение потребностей жизнеобеспечения и самосохранения, получение необходимых условий комфорта и гарантий безопасности, момента самооценки, статуса и влияния, как основ существования и развития личности в обществе.

Представленная ниже методика предназначена для тестирования мотивационной структуры личности у учащихся (как школьников, так и студентов).

Методика тестирования представляет из себя опросник, который состоит из 14 групп утверждений. Каждая из групп разделяется на 8 альтернативных пунктов (а, б, в, г, д, е, ж з). Испытуемый должен выразить свое отношение к каждому из них (то есть, не выбрать одну, а оценить каждую) по семибальной системе:

ПОЛНОСТЬЮ СОГЛАСЕН (3 балла), ДА, вполне согласен; (2 балла) - ПОЖАЛУЙ ДА, согласен в целом; (1 балл) - ПОЛНОСТЬЮ НЕ СОГЛАСЕН (-3 балла), НЕ СОГЛАСЕН (-2 БАЛЛА) В НЕКОТОРОЙ СТЕПЕНИ НЕ СОГЛАСЕН; (-1 балл) - НЕ ЗНАЮ, НЕ ЗАДУМЫВАЛСЯ НАД ЭТИМ (0 баллов). Вид диалогового окна при проведении компьютерного тестирования приведен на рис.1

Рис.2 Вид диалогового окна «Тестирование»

На основе результатов компьютерного тестирования автоматически образуется матрица ответов в виде, представленном на рис.2. Однако, в программепредусмотрена возможность формирования матрицы ответов по результатам бланкового тестирования.

Рис.3 Вид диалогового окна «Матрица ответов»

Суммарные диагностические оценки относятся к семи собственно мотивационным шкалам, составляющим мотивационный профиль личности (МП), и двум шкалам эмоционального поведения, составляющим эмоциональный профиль (ЭП). Включение эмоционального профиля в общий мотивационный профиль личности диктуется в научном плане внутренней общностью мотивации и эмоций, а в практическом - значительной диагностической информацией.

Шкалы мотивационного профиля: П - поддержание жизнеобеспечения; К - комфорт; С - социальный статус; О - общение; Д - общая активность; ДР - творческая активность; ОД - общественная полезность.

В соответствии с методикой каждая из 7 мотивационных шкал может быть представлена в четырех подшкалах: "Ж" - общежитейская, то есть относящаяся ко всей сфере жизнедеятельности; "Р" – рабочая (учебная), относится к сугубо рабочей или учебной сфере; И - "идеальное" состояние мотива, т.е. есть уровень собственно побуждения, устремления; РС - "реальное состояние", то, насколько испытуемый расценивает данный мотив удовлетворенным в настоящее время, а также то, сколько для этого затрачивается усилий. Таким образом, общая оценка мотивационной сферы личности по результатам тестирования составляется из 28 подшкал мотивационного профиля и 4 шкал эмоционального профиля.

В то же время мотивационные шкалы можно укрупнять, складывая показателя одноименных "идеальных" и "реальных" показателей. В этом случае число мотивационных подшкал сокращается до 14, а при сложении профилей 'Ж" и "Р" - до 7, что и предусмотрено в компьютерном варианте методики.

Первоначально, перед выполнением данной работы была создана база данных в Excel по­лученных результатов психологического тестирования абитуриентов и сту­дентов первокурсников ТПУ (рис.3)

Рис.4 Мотивационный профиль студентов

Было необходимо провести комплексный анализ полученных данных с целью изучения психологических качеств, которые связаны с творческими способностями и являются благоприятными для успешности обучения в Томском политехническом университете.

Поскольку база данных разработанной компьютерной системы совместима с форматами данных стандартных пакетов прикладных программ, то даль­нейший анализ данных осуществлялся с использованием таких пакетов.

В настоящее время мировой рынок программного обеспечения предлагает более 500 пакетов и программ для статистического анализа данных. Эти пакеты подразделяют на методо-ориентированные, проблемно-ориентированные и универсальные. Широкий круг задач, возникающих при конструировании психодиагностических исследований, обусловливают популярность в указанных предметных областях универсальных пакетов.

Одними из универсальных пакетов являются статистические графические пакеты Statistica и Statgraphics.

Statistica – это современный пакет статистического анализа, в котором реализованы все новейшие компьютерные и математические методы анализа данных. Программа предназначена для всех отраслей промышленности (бизнес, наука, обучение). В ней реализовано все возможные функции для статистической обработки данных, плюс к этому возможность построения графиков, базы данных и т.д. В программу встроен STATISTICA Visual Basic, что добавляет еще около 10000 новых функций. Синтаксис этого Basic'а полностью совместим с Microsoft Visual Basic.

STATISTICA - это система статистического анализа данных, включающая широкий набор аналитических процедур и методов:

- более 100 различных типов графиков,

- описательные и внутригрупповые статистики,

- быстрые основные статистики и блоковые статистики,

- множественная регрессия,

- непараметрические статистики,

- разведочный анализ данных, корреляции,

- общая модель дисперсионного и ковариационного анализа,

- интерактивный вероятностный калькулятор,

- T-критерии (и другие критерии групповых различий),

- таблицы частот, сопряженности, флагов и заголовков,

- анализ многомерных откликов,

- подгонка распределений и многое другое.

Продукты серии STATISTICA основаны на самых современных технологиях, целиком и полностью соответствуют завершительным приобретениям в области IT, позволяют решать любые задачи в области анализа и отделки данных, совершенно подходят для решения полезных задач в маркетинге, финансах, страховании, экономике, бизнесе, промышленности, медицине и т.д.

Также в настоящее время стал очень популярен статистический пакет Statgraphics – одby из лучших статистических пакетов программного обеспечения для персональных компьютеров. Популярность этого пакета объясняется тем, что данный пакет содержит практически все известные методы обработки статистических данных

Для того чтобы анализировать полученные данные, необходимо их сделать доступными для «Statistica» (рис. 5) и для Statgraphics (рис.6)

Рис. 5 Исходные данные

Рис. 6. Таблица с экспериментальными данными.

На основании исходных данных необходимо построить «лица Чернова» и произвести факторный анализ, сделать выводы.

Выводы по третьей главе:

  1. Для построения модели были собраны данные, проведен их анализ и обработка. Были выявлены основные шкалы мотивационного профиля.

  2. Была выбрана модель, которая поможет выявить закономерности в исходных данных и принимать на их основе решения.

4. Описание полученных результатов и их обсуждение

4.1. Результаты, полученные на основании метода Лиц Чернова

На основании исходных данных были построены «лица Чернова» по различным переменным.

Если брать только 7 первых переменных (n=7), т.е. поддержание жизнеобеспечения, комфорт, социальный статус, общение, общую активность, общественную полезность, можно получить следующие отображение исходной информации:

Рис. 7. Анализ мотивационного профиля студентов на основании метода «лица Чернова», где n = 7

Каждое лицо – это студент, который прошел тестирование. На рисунке видно, что каждой переменной соответствует определенная часть лица.

На основании взятых семи показателей довольно сложно сделать вывод, поэтому постепенно будем добавлять переменные.

Рис. 8. Анализ мотивационного профиля студентов на основании метода «лица Чернова», где n=9

На данном рисунке видно, что было добавлено еще две переменных: житейские устремления в идеальном и реальном состоянии. Стоит отметить, что те студенты, которые имеют положительные показатели, можно выделить в отдельную группу. Эту группу можно увидеть на рисунке, лица этой группы имеют пропорциональную форму лица, улыбку на лице и четко выделенные глаза. Те лица, на которых нет улыбки и четко обозначенных черт лица имеют отрицательные показатели, что говорит о том, что данный способ визуализации данных является очень наглядным и простым в применении.

Рассмотрим лицо №4, лицо имеет крупную овальную форму, ярко выраженную улыбку, это говорит о том, что этот студент имеет хорошие показатели, т.е. он является общительным, у него высокий социальный статус, он творчески активен и т.д. Если же мы возьмем, например, лицо № 23, можно увидеть, что данное лицо имеет маленькую форму, грустную улыбку, это говорит о том, что данный студент имеет отрицательные показатели, он является необщительным, чувствует себя некомфортно.

Итак, для дальнейшего решения задачи, добавим еще две переменных (устремления на учебе в идеальном и реальном состояние), а затем еще четыре (эмоции в обычном состоянии (астеническая составляющая и стеническая составляющая) и эмоции в состоянии фрустрации (астеническая и стеническая составляющая)) и получим следующие изображения:

Рис. 9. Анализ мотивационного профиля студентов на основании метода «лица Чернова», где n = 11

Рис. 10. Анализ мотивационного профиля студентов на основании метода «лица Чернова», где n = 15

На основании полученных изображений можно судить о студентах, которые проходили тестирование. Чем лучше у студента показатели, тем «позитивнее» выглядит лицо, если же у студента какие-то показатели имеют отрицательные значения, лицо принимает более «грустный», «злой» вид.

На основании полученных изображений были выявлены самые положительные студенты с хорошими показателями самые отрицательные студенты, с самыми отрицательными показателями, результаты приведены в табл. 1.

Табл.1 Результаты применения методы лиц Чернова

Положительный вид

Лица под номерами 1,2,4,7,9,17,30,49,60

 

Отрицательные студенты

Лица под номерами 6,8,14,20,23,48,50,54,58,69

 

4.2. Результаты факторного анализа

С использованием пакета Statgraphics получим сводку факторного анализа.

Рис. 11. Первичная сводка факторного анализа

Из полученной сводки следует, что на первые три фактора приходится 82 % дисперсии.

Теперь уменьшим количество факторов, до трех.

Рис. 12. Вторая сводка факторного анализа

В таблице приведены значения факторных нагрузок до применения процедуры вращения факторов. Но так как вращение факторов нередко помогает получить более полезные сведения о структуре экспериментальных данных, рассмотрим значения факторных нагрузок после проведения такого вращения.

Рис. 13. Результаты факторизации до вращения факторов

На рис. 13 в таблице приведены значения факторных нагрузок до применения процедуры вращения факторов. Но так как вращение факторов нередко помогает получить более полезные сведения о структуре экспериментальных данных, рассмотрим значения факторных нагрузок после проведения такого вращения.

Рис. 14. Матрица факторных нагрузок после проведения вращения

Нетрудно заметить, что после применения процедуры вращения в факторе 2 гораздо более высокое значение имеет факторная нагрузка для переменной Col_2 (комфорт). Вместе с тем в факторе 1 высокие величины нагрузок наблюдаются для переменных Col_5 и Col_6 (общая активная и творческая активность соответственно).

В результате у нас получились следующие графические отображения:

Рис. 15. Иллюстрация процента дисперсии для выделенных факторов

Заметим, что фактор 1 имеет весьма высокое и, конечно, самое большое значение процента дисперсии, а фактор 4 малозаметен по этому показателю.

Рис. 16. Проекция объектов на плоскость первого и второго факторов

На полученном рисунке показана проекция исследуемых объектов на плоскость, образованную первым и вторым факторами. Судя по конфигурации облака точек, первый и второй факторы сильно коррелируют.

Рис.17. Проекция объектов на плоскость второго и третьего факторов.

Рис. 18. Проекция объектов на плоскость первого и третьего факторов.

Рис. 19. Проекция объектов в трехмерное пространство

Этот график представляет собой проекцию объектов в трехмерное пространство, образование первыми тремя факторами.

Рис.20. Графическое отображение факторных нагрузок

На рис. 20 хорошо видно, что переменная Col_4 (общение) имеет значения как для первого, так и для второго факторов. Вместе с тем у переменных Col_5, Col_6, Col_7 (общая активность, творческая активность, общественная полезность) имеют большие нагрузки только на первый фактор. А Col_2 (комфорт) имеет большую нагрузку только на второй фактор.

Рис. 21. Отображение факторных нагрузок в пространстве трех факторов

Из приведенного рисунка видно, что весьма высокую нагрузку имеет переменная Col_3 (социальный статус). Однако это нагрузка приходится только на третий выделенный фактор, а, как нам известно, из предыдущих данных, третий фактор играет несущественную роль при описании рассмотренных экспериментальных наблюдений.

На рис. 16, рис. 17, рис. 18, рис. 19 можно заметить, что некоторые объекты расположены вдали от основной группы. Это объекты под номерами 2,4,6,14,23,30,48,49,50,54,69 (крайние объекты в пространстве).

Нельзя не заметить, что студенты под этими номерами были обозначены или как самые положительные, или как самые отрицательные студенты в табл.1. Это говорит о том, что оба методы выявили студентов, на которых нужно обратить внимание.

Выводы по пятой главе:

Компьютерная реализация исходных данных позволила:

  1. Представить многомерную информацию при помощи метода «лица Чернова»

  2. Представить многомерную информацию при помощи факторного анализа

  3. Проанализировать информацию при помощи такого способа отображения информации.

Основные выводы:

При выполнении работы были получены следующие основные результаты:

  1. Программы Statistica и Statgraphics можгут быть использованы во многих областях. Помимо общих статистических и графических средств в системе имеются специализированные модули, например, для проведения социологических или биомедицинских исследований, решения технических и, что очень важно, промышленных задач: карты контроля качества, анализ процессов и планирование эксперимента.

  2. Программы Statistica и Statgraphics подошли для решения поставленной задачи.

  3. Для решения поставленной задачи были использованы метод визуализации многомерных данных лица Чернова, который реализован в программе «Statistica» и факторный анализ, реализованные в Statgraphics.

  4. Для построения модели были собраны исходные данные, проведен их анализ и обработка.

  5. Был проведен анализ полученных результатов

Многие современные средства анализа данных позволяют строить сотни типов различных графиков и диаграмм. Поэтому выбор метода визуализации, если он самостоятельно осуществляется пользователем, не так прост и легок, как может показаться на первый взгляд. Наличие большого количества средств визуализации, представленных в инструменте, который применяет пользователь, может даже вызвать растерянность. Одну и ту же информацию можно представить при помощи различных средств. Для того чтобы средство визуализации могло выполнять свое основное назначение - представлять информацию в простом и доступном для человеческого восприятия виде - необходимо придерживаться законов соответствия выбранного решения содержанию отображаемой информации и ее функциональному назначению. Иными словами, нужно сделать так, чтобы при взгляде на визуальное представление информации можно было сразу выявить закономерности в исходных данных и принимать на их основе решения.

Список литературы

  1. Зенкин А. А. Когнитивная компьютерная графика. – М.: Наука, 1991. – 192 с.

  2. Интернет – университет информационных технологий [Электронный ресурс]. - Режим доступа: http://www.intuit.ru/department, свободный.

  3. Graphical Representation of Multivariate Data by Means of Asymmetrical Faces (by Bernard Flury and Hans Riedwyl) [Электронный ресурс].– Режим доступа http://www.jstor.org/pss/2287565, свободный

  4. Тарасов В.Б. От многоагентных систем к интеллектуальным организациям: философия, психология, информатика.– М.: Эдиториал УРСС, 2002. – 352 с.

  5. Вагин В.Н., Головина Е.Ю., Загорянская А.А., Фомина М.В. Достоверный и правдоподобный вывод в интеллектуальных системах. – М.: Физматлит, 2004. - 703 с.

  6. Башмаков А.И., Башмаков И.А. Интеллектуальные информационные технологии. – М.: Изд-во МГТУ им. Н.Э.Баумана, 2005. - 304 с.

  7. Дюк В., Эмануэль В., Информационные технологии в медико-биологических исследованиях. – СПб: Питер, 2003. – 528 с.

Просмотров работы: 2868