Пакет Wiz Why поддерживает различные форматы баз данных (ASCII, MS Access, MS Excel и др.). Рассмотрим возможности использования данного пакета при анализе медицинских данных в задаче оценки эффективности лечения детей с заболеваниями щитовидной железы.
Для пакета Wiz Why исходные данные представлены в виде матрицы, столбцы соответствуют признакам объекта, а строки – объектам. После загрузки системы остается лишь выбрать нужный формат и загрузить данные. В поле Open Data of Type нужно указать тип загружаемых данных (Рис. 1.) [1, 2].
Рис. 1. Окно диалога для управления данными |
В поле Field Name и Field Type отображаются имена и типы переменных.
Следующий шаг, это назначение целевой, или так называемой зависимой (dependent) переменной, в позиции колонки Dependent Variable (Рис. 1). Значение этой переменной будет связываться с помощью if-then-правил со значениями независимых переменных. В нашей задаче такой целевой переменной может являться: масса тела, индекс массы тела, избыток массы тела.
В системе Wiz Why целевой признак разделяет все множество объектов на две части. Целевой признак IMT p-do в нашей работе является количественным (Number), поэтому необходимо указать область значения этого признака. По умолчанию система определяет среднее значение признака. Правила if-then будут определяться для указанной области, а if-then-NOT будут описывать объекты, не попавшие в эту область.
Следующим шагом является задание собственно параметров правил (Рис. 2): Minimum probability of if-then rules (Минимальная вероятность if-then-правил) и Minimum probability of if-then NOT rules (Минимальная вероятность if-then-not- правил). Эти параметры указывают на точность правила. Поставив в соответствующих полях 80% процентов, из этого следует, что система Wiz Why формулирует требования обнаруживать правила, которые будут ошибаться не более чем в 20% случаев.
Maximum number of conditions in a rule (максимальное число условий в правиле) – это максимальное количество элементарных логических событий в одном правиле. Установлено, что оно равно 6.
Следующий параметр, Minimum number of cases in a rule (минимальное число объектов в правиле). Значение 10 обозначает, что правило распространяется не менее чем на 10 объектов.
Рис. 2. Окно Rule Parameters |
Закладка Error Costs (стоимость ошибок). В этой закладке задаются значения двух параметров [2]:
Cost of a miss (Стоимость пропуска) – отнесение к не диагностируемому классу, когда на самом деле имеет место диагностируемый класс, задается равной 1;
Cost of a false alarm (стоимость ложной тревоги) – отнесение к противоположному диагностируемому классу, когда на самом деле имеет место правильное распознавание, задается равной 1.
Значения стоимости ошибок следует задавать равными – это сделает число ошибок при анализе минимальным.
В закладке Rule Report (Рис. 3) представлены способы выдачи результатов. Maximum number of rules to be displayed (максимальное количество отображаемых правил). Этот параметр предназначен только для ограничения количества правил, выдаваемых в отчёт (Rule Report). Далее указывается способ сортировки правил в отчёте (по уровню значимости – Significance level, по точности – Probability, по количеству объектов – Number of cases). В поле Present examples where (представить примеры) можно выразить желание посмотреть примеры работы выявляемых правил. Если поставить флажок в позиции Rule in effect, то система будет формировать в отчёте для каждого правила список номеров объектов, для которых правило не ошибается. Длина списка ограничивается заданным числом. Соответственно, флажок в позиции Rule in not effect запрашивает у системы выдачу списка номеров объектов, на которых какое-либо правило работает с ошибкой.
Рис. 3. Окно Rule Report |
Для того чтобы запустить процедуру поиска логических правил следует нажать кнопку «Issue Rule». После этого система выдает три отчета:
Отчёт о правилах (Rule report), в котором перечисляются обнаруженные правила с указанием их;
Отчёт о трендах (Trend report), в котором представлены результаты сегментации отдельных (информативных) признаков;
Отчёт о неожиданных правилах, который объединяется с основными правилами.
Рис. 4. Отчёт о правилах |
На графике по горизонтальной оси (Рис. 4) располагаются сегменты, на которые разбивается выбранный признак, Lizocim do (значение показателя Лизоцима до лечения). По вертикальной оси откладывается отношение количества объектов класса if-then к общему количеству объектов, попадающих в сегмент. Из этого следует, что высота столбиков отражает информативность сегментов. Если столбик выше горизонтальной линии, то значит, в данный сегмент чаще попадают объекты класса if-then, а если ниже, то класса if-then-NOT. Ширина столбиков пропорциональна количеству объектов, относящихся к данному сегменту. Количество объектов также находится выше графика в таблице, столбец No. of Cases.
Рис. 5. Отчёт о трендах |
Поиск логических правил осуществлялся для клинико-лабораторных показателей до лечения, так и для значения разности показателей до лечения и после лечения.
Правила характеризующие показатели пациентов до лечения к Индексу массы тела после лечения, позволяют понять, на каких пациентов и с какими признаками лечение подействовало эффективнее.
Для пояснения полученных правил, наиболее подробно рассмотрено правило №5:
If IgM do is 0,80 ... 2,10 (average = 1,43)
and Lizocim do is 36,00
Then
IMT p-do is not more than -1,08
Rule's probability: 0,909
The rule exists in 10 records.
SignificanceLevel: Errorprobability < 0,01
Это правило представляет собой конъюнкцию двух высказываний:
If IgM do is 0,80 ... 2,10 (average = 1,43 ) – если концентрация иммуноглубина M до лечения от 0,80 до 2,10, и Lizocim do is 36,00 активность лизоцима в сыворотке крови до лечения равняется 36, то IMT p-do индекс массы тела в результате проведенного лечения уменьшается более чем на 1,08.
Запись Rule's probability: 0,909 означает точность правила в данном случае равной 0,909. Следующая запись The rule exists in 10 records характеризует множество объектов, для котрых справедливо рассматриваемое правило, а запись Significance Level: Error probability < 0,01 касается статистической оценки уровня значимости.
В системе предусмотрена визуализация любого правила. Для этого надо позиционировать курсор на одном из его условий и щелчком правой кнопки мыши вызвать контексное меню, где выбрать «Rule Chart…». В окне отобразится диаграмма, иллюстрирующая отдельные компоненты правила (Рис. 6).
Рис. 6. Диаграмма правила |
Левая часть окна содержит правило в текстовом режиме. Правая часть – визуализация правила. Зеленая полоса показывает долю объектов, обладающих целевым значением, красная полоса иллюстрирует пропущенные объекты, белые разделы – другие объекты в этом поле. Длина полосы соответствует доле таких объектов.
Оценить информативность признака можно при помощи таблицы «Field Index», где перечисляются признаки, участвующие в полученных правилах, и приводится список их номеров. Анализируя таблицу 1, можно сказать, что показатели: DV.PR. do, OXC do, TTG(0,23-3,4) do имеют наибольшее значение при выявлении закономерностей, а в таблице 2 показатели: DV.PR.р-do, CIK p-do, Kortizol p-do, OL p-do.
Таблица 1
Field Index (до лечения)
Field |
Rule |
DV.PR. do |
2, 10, 12, 15, 21 |
FNO (ne >2,5 pg/ml) do |
13, 14 |
IA do |
1, 6, 17, 20 |
IgM do |
2, 5, 21 |
Kortizol do |
1, 12, 14, 18 |
LPNP do |
3 |
Lizocim do |
5, 9, 13, 15 |
OXC do |
3, 4, 11, 16, 19 |
PI do |
4, 6 |
TAG do |
7, 19, 20, 21 |
TMT do |
1, 4, 6 |
TTG(0,23-3,4) do |
2, 3, 7, 8, 10, 12 |
Таблица 2
Field Index (после лечения)
Field |
Rule |
APF p-do |
2, 5, 28, 29, 33, 50, 65, 69, 70 |
CIK p-do |
15, 20, 21, 31, 32, 34, 37, 41, 42, 47,54, 57, 63, 64, 68, 69, 73 |
DAD p-do |
1, 2, 6, 8, 13, 17, 19, 23, 26, 46,53, 59 |
DV.PR.р-do |
9, 10, 12, 17, 22, 23, 24, 30, 31, 36,39, 40, 48, 49, 54, 61, 62, 63, 69, 71,72, |
FNO p-do |
43, 61, 62 |
IgG p-do |
2, 5, 19, 20, 21, 30, 31, 32, 46, 52 |
IgM p-do |
27 |
Insylin p-do |
11, 13, 15, 16, 19, 28, 29, 33, 68 |
Kortizol p-do |
4, 7, 8, 9, 18, 28, 29, 33, 39, 40,47, 48, 49, 52, 54, 57, 60, 73, 74 |
LPONP p-do |
21, 29, 40, 42, 45, 49, 56, 62, 67, 72 |
Lizocim p-do |
37, 41, 42, 54, 63, 64, 73, 74 |
MG p-do |
3, 10, 17, 24 |
NOMA p-do |
14, 34, 37, 46, 53, 58, 59, 60, 70, 71,72 |
OL p-do |
4, 14, 18, 20, 21, 27, 30, 32, 35, 38, 41, 42, 48, 49, 50, 51, 59, 61, 62, 63,71, 72, 74 |
OXC p-do |
25, 26, 35 |
PI p-do |
16, 36, 39, 40, 53, 58, 60, 64, 66, 67 |
SAD p-do |
1, 10, 12, 25, 44, 45, 58, 70 |
T syp p-do |
18, 19, 46, 51, 57, 64 |
TAG p-do |
20, 28, 39, 41, 44, 48, 55, 61, 66, 71 |
TFN p-do |
34, 37, 47, 52, 53, 58, 59, 60, 68, 70,73 |
На основе анализа логических правил представленных в приложении В можно сделать вывод о том, что, уменьшение или увеличение определенных значений показателей способствует лучшему результату при проведении лечения и наоборот, улучшение в лечение не наблюдается или наблюдается, но незначительное.
Правило №2:
If DAD p-do is -12,00 ... 0,00 (average = -4,58 )
and IgG p-do is -21,00 ... -0,80 (average = -5,20 )
and APF p-do is -26,67 ... -9,40 (average = -16,23 )
Then
IMT p-do is not more than -1,08
Rule's probability: 1,000
The rule exists in 12 records.
SignificanceLevel: Errorprobability < 0,0001
Из анализа правила №2 следует, что снижение диастолического артериального давления, иммуноглубина G и ангиотензинпревращающего фермента в сыворотке крови, способствует лучшему похудению пациентов, индекс массы тела уменьшается более чем на 1,08, достоверность 100%.
Заключение
В результате выполнения квалификационной работы, была построена информационная система обработки данных методами Data Mining.
При помощи информационной системы были решены следующие задачи:
сформированы 4 группы (кластера) пациентов (детей, страдающих различными степенями ожирения) со сходными значениями клинико-лабораторных показателей;
выявлены скрытые закономерности эффективности лечения пациентов, на основе чего была сформирована база знаний о выборе траектории лечения. Алгоритм ограниченного перебора позволил выявить логические правила, на основании которых:
ещё на стадии диагностики клинико-лабораторных показателей можно установить эффективность проведения данного лечения;
выявление информативных клинико-лабораторных показателей.
Информационная система запущена в опытную эксплуатацию в НИИ курортологии и физиотерапии города Томска.
Публикация подготовлена при финансовой поддержке РФФИ, проект № 15-07-08922, а также частично поддержана грантами РФФИ (проекты № 14-06-00026 и № 14-07-00675).
ЛитератураГаврилова Т.А., Хорошевкий В.Ф. – Базы знаний интеллектуальных систем – СПб. Питер, 2001. – 384 с.
Дюк В., Самойленко А. Data Minning: учебный курс – СПб: Питер, 2001. – 386 с.
9