АНАЛИЗ МЕДИЦИНСКИХ ДАННЫХ В СИСТЕМЕ WIZ WHY

Бурцева А.Л. 1, Маклакова Т.Г. 1

1Томский Политехнический Университет

Текст работы размещён без изображений и формул.
Полная версия работы доступна во вкладке "Файлы работы" в формате PDF

Пакет Wiz Why поддерживает различные форматы баз данных (ASCII, MS Access, MS Excel и др.). Рассмотрим возможности использования данного пакета при анализе медицинских данных в задаче оценки эффективности лечения детей с заболеваниями щитовидной железы.

Для пакета Wiz Why исходные данные представлены в виде матрицы, столбцы соответствуют признакам объекта, а строки – объектам. После загрузки системы остается лишь выбрать нужный формат и загрузить данные. В поле Open Data of Type нужно указать тип загружаемых данных (Рис. 1.) [1, 2].

Рис. 1. Окно диалога для управления данными

В поле Field Name и Field Type отображаются имена и типы переменных.

Следующий шаг, это назначение целевой, или так называемой зависимой (dependent) переменной, в позиции колонки Dependent Variable (Рис. 1). Значение этой переменной будет связываться с помощью if-then-правил со значениями независимых переменных. В нашей задаче такой целевой переменной может являться: масса тела, индекс массы тела, избыток массы тела.

В системе Wiz Why целевой признак разделяет все множество объектов на две части. Целевой признак IMT p-do в нашей работе является количественным (Number), поэтому необходимо указать область значения этого признака. По умолчанию система определяет среднее значение признака. Правила if-then будут определяться для указанной области, а if-then-NOT будут описывать объекты, не попавшие в эту область.

Следующим шагом является задание собственно параметров правил (Рис. 2): Minimum probability of if-then rules (Минимальная вероятность if-then-правил) и Minimum probability of if-then NOT rules (Минимальная вероятность if-then-not- правил). Эти параметры указывают на точность правила. Поставив в соответствующих полях 80% процентов, из этого следует, что система Wiz Why формулирует требования обнаруживать правила, которые будут ошибаться не более чем в 20% случаев.

Maximum number of conditions in a rule (максимальное число условий в правиле) – это максимальное количество элементарных логических событий в одном правиле. Установлено, что оно равно 6.

Следующий параметр, Minimum number of cases in a rule (минимальное число объектов в правиле). Значение 10 обозначает, что правило распространяется не менее чем на 10 объектов.

Рис. 2. Окно Rule Parameters

Закладка Error Costs (стоимость ошибок). В этой закладке задаются значения двух параметров [2]:

Cost of a miss (Стоимость пропуска) – отнесение к не диагностируемому классу, когда на самом деле имеет место диагностируемый класс, задается равной 1;
Cost of a false alarm (стоимость ложной тревоги) – отнесение к противоположному диагностируемому классу, когда на самом деле имеет место правильное распознавание, задается равной 1.

Значения стоимости ошибок следует задавать равными – это сделает число ошибок при анализе минимальным.

В закладке Rule Report (Рис. 3) представлены способы выдачи результатов. Maximum number of rules to be displayed (максимальное количество отображаемых правил). Этот параметр предназначен только для ограничения количества правил, выдаваемых в отчёт (Rule Report). Далее указывается способ сортировки правил в отчёте (по уровню значимости – Significance level, по точности – Probability, по количеству объектов – Number of cases). В поле Present examples where (представить примеры) можно выразить желание посмотреть примеры работы выявляемых правил. Если поставить флажок в позиции Rule in effect, то система будет формировать в отчёте для каждого правила список номеров объектов, для которых правило не ошибается. Длина списка ограничивается заданным числом. Соответственно, флажок в позиции Rule in not effect запрашивает у системы выдачу списка номеров объектов, на которых какое-либо правило работает с ошибкой.

Рис. 3. Окно Rule Report

Для того чтобы запустить процедуру поиска логических правил следует нажать кнопку «Issue Rule». После этого система выдает три отчета:

Отчёт о правилах (Rule report), в котором перечисляются обнаруженные правила с указанием их;
Отчёт о трендах (Trend report), в котором представлены результаты сегментации отдельных (информативных) признаков;
Отчёт о неожиданных правилах, который объединяется с основными правилами.

Рис. 4. Отчёт о правилах

На графике по горизонтальной оси (Рис. 4) располагаются сегменты, на которые разбивается выбранный признак, Lizocim do (значение показателя Лизоцима до лечения). По вертикальной оси откладывается отношение количества объектов класса if-then к общему количеству объектов, попадающих в сегмент. Из этого следует, что высота столбиков отражает информативность сегментов. Если столбик выше горизонтальной линии, то значит, в данный сегмент чаще попадают объекты класса if-then, а если ниже, то класса if-then-NOT. Ширина столбиков пропорциональна количеству объектов, относящихся к данному сегменту. Количество объектов также находится выше графика в таблице, столбец No. of Cases.

Рис. 5. Отчёт о трендах

Поиск логических правил осуществлялся для клинико-лабораторных показателей до лечения, так и для значения разности показателей до лечения и после лечения.

Правила характеризующие показатели пациентов до лечения к Индексу массы тела после лечения, позволяют понять, на каких пациентов и с какими признаками лечение подействовало эффективнее.

Для пояснения полученных правил, наиболее подробно рассмотрено правило №5:

If IgM do is 0,80 ... 2,10 (average = 1,43)

and Lizocim do is 36,00

Then

IMT p-do is not more than -1,08

Rule's probability: 0,909

The rule exists in 10 records.

SignificanceLevel: Errorprobability < 0,01

Это правило представляет собой конъюнкцию двух высказываний:

If IgM do is 0,80 ... 2,10 (average = 1,43 ) – если концентрация иммуноглубина M до лечения от 0,80 до 2,10, и Lizocim do is 36,00 активность лизоцима в сыворотке крови до лечения равняется 36, то IMT p-do индекс массы тела в результате проведенного лечения уменьшается более чем на 1,08.

Запись Rule's probability: 0,909 означает точность правила в данном случае равной 0,909. Следующая запись The rule exists in 10 records характеризует множество объектов, для котрых справедливо рассматриваемое правило, а запись Significance Level: Error probability < 0,01 касается статистической оценки уровня значимости.

В системе предусмотрена визуализация любого правила. Для этого надо позиционировать курсор на одном из его условий и щелчком правой кнопки мыши вызвать контексное меню, где выбрать «Rule Chart…». В окне отобразится диаграмма, иллюстрирующая отдельные компоненты правила (Рис. 6).

Рис. 6. Диаграмма правила

Левая часть окна содержит правило в текстовом режиме. Правая часть – визуализация правила. Зеленая полоса показывает долю объектов, обладающих целевым значением, красная полоса иллюстрирует пропущенные объекты, белые разделы – другие объекты в этом поле. Длина полосы соответствует доле таких объектов.

Оценить информативность признака можно при помощи таблицы «Field Index», где перечисляются признаки, участвующие в полученных правилах, и приводится список их номеров. Анализируя таблицу 1, можно сказать, что показатели: DV.PR. do, OXC do, TTG(0,23-3,4) do имеют наибольшее значение при выявлении закономерностей, а в таблице 2 показатели: DV.PR.р-do, CIK p-do, Kortizol p-do, OL p-do.

Таблица 1

Field Index (до лечения)

Field	Rule
DV.PR. do	2, 10, 12, 15, 21
FNO (ne >2,5 pg/ml) do	13, 14
IA do	1, 6, 17, 20
IgM do	2, 5, 21
Kortizol do	1, 12, 14, 18
LPNP do	3
Lizocim do	5, 9, 13, 15
OXC do	3, 4, 11, 16, 19
PI do	4, 6
TAG do	7, 19, 20, 21
TMT do	1, 4, 6
TTG(0,23-3,4) do	2, 3, 7, 8, 10, 12

Таблица 2

Field Index (после лечения)

Field	Rule
APF p-do	2, 5, 28, 29, 33, 50, 65, 69, 70
CIK p-do	15, 20, 21, 31, 32, 34, 37, 41, 42, 47,54, 57, 63, 64, 68, 69, 73
DAD p-do	1, 2, 6, 8, 13, 17, 19, 23, 26, 46,53, 59
DV.PR.р-do	9, 10, 12, 17, 22, 23, 24, 30, 31, 36,39, 40, 48, 49, 54, 61, 62, 63, 69, 71,72,
FNO p-do	43, 61, 62
IgG p-do	2, 5, 19, 20, 21, 30, 31, 32, 46, 52
IgM p-do	27
Insylin p-do	11, 13, 15, 16, 19, 28, 29, 33, 68
Kortizol p-do	4, 7, 8, 9, 18, 28, 29, 33, 39, 40,47, 48, 49, 52, 54, 57, 60, 73, 74
LPONP p-do	21, 29, 40, 42, 45, 49, 56, 62, 67, 72
Lizocim p-do	37, 41, 42, 54, 63, 64, 73, 74
MG p-do	3, 10, 17, 24
NOMA p-do	14, 34, 37, 46, 53, 58, 59, 60, 70, 71,72
OL p-do	4, 14, 18, 20, 21, 27, 30, 32, 35, 38, 41, 42, 48, 49, 50, 51, 59, 61, 62, 63,71, 72, 74
OXC p-do	25, 26, 35
PI p-do	16, 36, 39, 40, 53, 58, 60, 64, 66, 67
SAD p-do	1, 10, 12, 25, 44, 45, 58, 70
T syp p-do	18, 19, 46, 51, 57, 64
TAG p-do	20, 28, 39, 41, 44, 48, 55, 61, 66, 71
TFN p-do	34, 37, 47, 52, 53, 58, 59, 60, 68, 70,73

На основе анализа логических правил представленных в приложении В можно сделать вывод о том, что, уменьшение или увеличение определенных значений показателей способствует лучшему результату при проведении лечения и наоборот, улучшение в лечение не наблюдается или наблюдается, но незначительное.

Правило №2:

If DAD p-do is -12,00 ... 0,00 (average = -4,58 )

and IgG p-do is -21,00 ... -0,80 (average = -5,20 )

and APF p-do is -26,67 ... -9,40 (average = -16,23 )

Then

IMT p-do is not more than -1,08

Rule's probability: 1,000

The rule exists in 12 records.

SignificanceLevel: Errorprobability < 0,0001

Из анализа правила №2 следует, что снижение диастолического артериального давления, иммуноглубина G и ангиотензинпревращающего фермента в сыворотке крови, способствует лучшему похудению пациентов, индекс массы тела уменьшается более чем на 1,08, достоверность 100%.

Заключение

В результате выполнения квалификационной работы, была построена информационная система обработки данных методами Data Mining.

При помощи информационной системы были решены следующие задачи:

сформированы 4 группы (кластера) пациентов (детей, страдающих различными степенями ожирения) со сходными значениями клинико-лабораторных показателей;
выявлены скрытые закономерности эффективности лечения пациентов, на основе чего была сформирована база знаний о выборе траектории лечения. Алгоритм ограниченного перебора позволил выявить логические правила, на основании которых:

ещё на стадии диагностики клинико-лабораторных показателей можно установить эффективность проведения данного лечения;
выявление информативных клинико-лабораторных показателей.

Информационная система запущена в опытную эксплуатацию в НИИ курортологии и физиотерапии города Томска.

Публикация подготовлена при финансовой поддержке РФФИ, проект № 15-07-08922, а также частично поддержана грантами РФФИ (проекты № 14-06-00026 и № 14-07-00675).

Литература

Гаврилова Т.А., Хорошевкий В.Ф. – Базы знаний интеллектуальных систем – СПб. Питер, 2001. – 384 с.
Дюк В., Самойленко А. Data Minning: учебный курс – СПб: Питер, 2001. – 386 с.

Просмотров работы: 798

Код для цитирования:

VII Международная студенческая научная конференция Студенческий научный форум - 2015

АНАЛИЗ МЕДИЦИНСКИХ ДАННЫХ В СИСТЕМЕ WIZ WHY

Студенческий научный форум - 2015
VII Международная студенческая научная конференция