АНАЛИЗ МЕТОДОВ НОРМИРОВКИ РАЗНОТИПНЫХ ДАННЫХ ДЛЯ АНАЛИЗА В ЭКСПЕРТНЫХ СИСТЕМАХ МЕДИЦИНСКОЙ ДИАГНОСТИКИ - Студенческий научный форум

VII Международная студенческая научная конференция Студенческий научный форум - 2015

АНАЛИЗ МЕТОДОВ НОРМИРОВКИ РАЗНОТИПНЫХ ДАННЫХ ДЛЯ АНАЛИЗА В ЭКСПЕРТНЫХ СИСТЕМАХ МЕДИЦИНСКОЙ ДИАГНОСТИКИ

Гергет О.М. 1, Голенков В.В. 1
1ТПУ, кафедра ПМ
 Комментарии
Текст работы размещён без изображений и формул.
Полная версия работы доступна во вкладке "Файлы работы" в формате PDF

Введение

В последнее время, все чаще появляются задачи, в которых исходные данные разнотипны. Основной проблемой таких данных является их несравнимость между собой.

Для получения возможности анализа разнотипных данных, все они сводятся к единой шкале, однако, такой переход может серьезно повлиять на качество данных. В большинстве случаев распределения каждого набора значений зависят от модальности или алгоритма сравнения, потому распределения этих значений не обязательно будут принадлежать одному численному диапазону. Таким образом, необходимо, чтобы процессу обработки предшествовал процесс нормализации значений.

Нормализация медицинских данных

Нормализация - преобразование формальных параметров или критериев оценки эффективности объекта, выражаемых в общем случае в различных единицах, к безразмерному виду с целью их сопоставления и сравнительной оценки.

Нормализация необходима по причине повышения качества данных. Основной проблемой разнотипных данных является несоответствие их друг-другу в рамках одной шкалы. Возможны ситуации, когда более значимый параметр, с небольшим значением величины, перекрывается менее значимым, у которого, значение больше. Так образом, мы получаем данные плохого качества, т. е. Данные могут оказаться «несравнимыми». Для исключения такой ситуации и вводится нормализация.

Методы нормализации данных

Далее будет произведен обзор наиболее часто используемых методов, и будет выбран один, который будет использоваться в задаче нормировки разнотипных медицинских данных. Критерием для выбора метода будут служить свойства, указанные ниже.

Методы нормализации должны обладать следующими свойствами:

  1. Учитывать значимые параметры, значения которых изменяются в небольшом диапазоне, по сравнению с другими.

  2. Результирующие (нормированные) величины должны находится в ограниченном интервале.

Минимаксная нормализация

В работах [1], [2] и [3], для повышения качества оцениваемых данных была применена минимаксная нормализация.

Она представляет собой линейное отображение данных из одного интервала в другой. Допустим, мы имеем набор данных величины X, который нужно перенести в новый интервал [Xl, Xr]. Найдем максимальное (Xmax) и минимальное(Xmin) значения в наборе. Тогда, формула преобразования величин из [Xmin Xmax] в [Xl Xr] будет выглядеть следующим образом:

(1)

Плюсом данного метода является его простота, которая положительно скажется на производительности системы.

Существенным минусом данного подхода является то, что величины Xmax и Xmin должны бы определены заранее, и не должны меняться в процессе работы[8].

Данный метод не удовлетворяет нашим потребностям, в виду отсутствия свойства 1.

Нормализация стандартным отклонением

В работах [7] и [8], авторы удачно применили стандартизацию стандартным отклонением.

Формула преобразования представлена в формуле 2.

(2)

Где:

МХ — мат ожидание величины X,

dX — стандартное отклонение

Если значения МХ и dX заранее неизвестны, их можно примерно оценить по образцу. После нормализации, каждое значение Xi будет представлять собой отклонение(предполагаемое), от среднего значения(предполагаемого). [7]

Этот метод прост в использовании, но у него есть ряд существенных минусов:

  • Сильная чувствительность к малым dX.

  • Необходимость хранения информации о Mx и dx, либо их регулярный перерасчет.

Данный метод не подходит для решения задачи, т. к. не обладает свойством 2

Тангенциальный метод

Работа [9] посвящена слиянию данных в биометрических системах. В рамках этой работы, авторы выделяют, как наиболее часто используемые, методы минимаксной нормировки, тангенциальный метод и адаптивную нормализацию.

Тангенциальный метод - это устойчивый статистический метод, который отображает данные на интервал (0;1).

Формула преобразования представлена в формуле 3:

(3)

Благодаря статистической устойчивости, метод всегда преобразует значение в заданный интервал, что обеспечивает свойство 2. Однако он не подходит для решения задачи, т. к. не имеет возможности учета значимых параметров (свойство 1).

Адаптивная нормализация

Адаптивная нормализация использует 2 метода: метод двух квадратов, и метод квадрат-прямая-квадрат.

Формула отображения первого метода представлена в формуле 4:

(4)

Где:

mid - середина пересечения предварительно известных распределений .

Формула отображения второго метода представлена в формуле 5:

(5)

Где:

d — ширина области пересечения

Данный метод сложен в использовании, т. к. для его применения, нужно знать середину пересечения предварительно известных распределений (mid). К тому же, данный метод не обладает свойством 1, что исключает его использование в данной задаче.

Функция желательности Харрингтона

В работе [12] авторы использовали функцию желательности Харрингтона(ФХ). Она возникла в результате наблюдений за реальными решениями экспериментаторов и обладает такими полезными свойствами, как непрерывность, монотонность и гладкость.

ФХ переводит значения конкретных параметров в абстрактные числовые значения. За основу берется одна из «кривых желательности». Ее формула представлена в формуле 6:

d =exp[-exp(-Y)] (6)

Она определяет функцию с двумя участками насыщения (в d→0 и d→1) и линейным участком (от d=0,2 до d=0,63). Эта функция была выведена эмпирическим путем. Ось координат Y называется шкалой частных показателей. Ось d – шкалой желательности. Промежуток эффективных значений на шкале частных показателей – [2; +5]. Шкала желательности делится в диапазоне от 0 до 1 на пять поддиапазонов: [0; 0,2] – «очень плохо», [0,2; 0,37] – «плохо», [0,37; 0,63] – «удовлетворительно», [0,63; 0,8] – «хорошо», [0,8; 1] – «очень хорошо». Конкретные параметры сравниваемых систем распределяются в масштабе, соответствующем предъявляемым к ним требованиям, на промежутке эффективных значений шкалы частных показателей. Затем соответствующие им показатели пересчитываются в отметки на шкале желательности. Полученное значение d(i) для iго параметра пересчитывается вместе с другими в обобщенный коэффициент желательности – D [12].

Он вычисляется по формуле 7.

(7)

Где:

n – число используемых показателей параметров сравнения для данной системы.

Причем число этих показателей может быть неодинаковым для разных систем. Это позволяет сравнивать обобщенные коэффициенты даже тогда, когда отсутствует часть параметров сравнения у различных систем или данные по ним. Корень n-й степени «сглаживает» возникающие отклонения, а полученный результат позволяет оценивать системы (с определенной степенью точности), так сказать, «математически» [12].

Данный метод подходит для использования в нашей задачи, т. к. обладает указанными свойствами.

Использование Функции желательности Харрингтона для нормализации разнотипных медицинских данных

Рассмотрим применение ФХ для анализа медицинских данных. Имеем показатели, представленные в таблице:

Таблица 1. Описание разнотипных данных

Название

Описание

Значения показателя

Проба Генча

Проба с задержкой дыхания на выдохе, для оценки функциональных возможностей дыхательной системы

< 15c — неудов-но

15c-25c — удов-но

> 25c - хорошо

Тиреотропный гормон (ТТГ)

Отвечает за нормальную работу щитовидной железы, стимулирует выработку гормонов щитовидной железы

Границы нормы:

0,3 — 4 ммЕ/л

Трийодтиронин (Т3)

Вырабатываются щитовидной железой и содержат йод. В течение всей жизни эти гормоны поддерживают работу головного мозга, сердца, мышц, регулируют обмен веществ в организме .

Границы нормы:

1 — 2,8 нмоль/л

Тироксин (Т4)

Границы нормы:

40 — 120 нмоль/л

Таблица 2. Примерная разметка желательности

Желательность

Di

ТТГ

Т3

Т4

Проба Генча

Очень хорошо

1,0

1,8 — 2,3

1,8 - 2,0

70 - 90

30

Хорошо

0,8

1,3 — 2,8

1,6 - 2,2

60 - 100

25

Удовл-но

0,63

0,8 — 3,3

1,3 - 2,5

50 - 110

20

Плохо

0,37

0,3 — 3,8

1 - 2,8

40 - 120

15

Очень плохо

0,2

0 — 4

0,5 - 3,3

20 - 140

10

Значение на шкале желательности, для значений показателей, которые не лежат на границах, представленных в таблицах 1-2, рекомендуется интерполировать B-сплайном.

Рис. 1. Частная ФХ для пробы Генча Рис. 2. Частная ФХ для ТТГ

Рис. 3. Частная ФХ для Т3 Рис.3. Частная ФХ для Т4

Заключение

В ФХ могут входить разнообразные отклики, технологические и социально-экономические показатели, эстетические и экспертные оценки. ФХ удовлетворяет всем необходимым требованиям, предъявляемым к параметрам оптимизации. Шкала желательности Харрингтона - количественный, однозначный, единый, универсальный показатель качества объекта, как параметра оптимизации. Функция обладает свойствами эффективной и статической чувствительности, хотя и не лишена отдельных недостатков. Так, все параметры принимаются равнозначно «ценными», хотя это не всегда истинно.

Таким образом, применение функции желательности можно рекомендовать для обработки разнотипных данных.

  1. Вопросы организации и информатизации здравоохранения // Жарко В.И., Цыбин А.К., Малахова И.В. и др. — 2006.— № 4. – С. 3—7.

  2. Мед. Вестник // Жарко В.И. – 2008. – № 9 (843). – С. 2.

  3. Медицинская информатика: практикум // Гельман В.Я. – СПб.: Питер, 2002.

  4. Супервизорное управление системами контроля климата в зданиях . Тюков Антон Павлович. ВолгГТУ, 2013.

  5. Формализация процесса мониторинга информации в сети Интернет при создании предметно-ориентированных хранилищ данных. Леонов Евгений Алексеевич. [Электронный ресурс] // URL[Доступ свободный, http://dis.podelise.ru/text/index-101778.html?page=6]. Дата правки: 2011.

  6. Мониторинг и прогнозирование концентраций вредных веществ в атмосфере на основе статистических данных и методами математического моделирования по городу Таганрогу. В.К. Гадельшин, Ю.А. Мещерякова, С.Ю. Румилова .. Известия ЮФУ. Технические науки. УДК 681.3.06:502.504 .

  7. Характерные особенности костного метаболизма у постменопаузальных женщин с болезнью Грейвса. А.П. Шепелькевич. УО БГМУ. 2011 г.

  8. Отдаленные результаты операций протезирования митрального клапана в раннем детском возрасте . Василевская Ирина Валентиновна. Москва - 2012 г.

  9. Алгоритмы слияния данных в биометрических системах и применение в них нейросетевых технологий . А.В. Андреев, Д.А. Скоринов . МФТИ, УДК 004.032.26:004.421 .

  10. Использование «функции желательности» для формализации комплексного показателя конкурентоспособности промышленного предприятия. И. Н. Булгакова, А. Н. Морозов . Вустник ВГУ. УДК 330.4 .

  11. Обобщенная функция желательности Харрингтона для сравнительного анализа технических средств. А.В. Пичкалев. УДК 658.012.01.

  12. Практические аспекты использования функции желательности в медико-биологическом эксперименте [Электронный ресурс] Современные проблемы науки и образования // URL[Доступ свободный: http://www.science-education.ru/100-5270

Просмотров работы: 4273