Опыт применения кластерного анализа в оценке эффективности медицинской реабилитации

В. В. Коваленко
Сочинский институт экономики и информационных технологий, Сочи
(E-mail: vlvas@mail. ru, телефон — 8(8622)557279)


Кластерный анализ является многомерным статистическим аппаратом, предназначенным для упорядочивания объектов (совокупности наблюдений) в сравнительно однородные группы (кластеры). Существует достаточно много методов кластерного анализа, которые реализованы в соответствии с теорией распознавания образов без обучения и в большинстве своем носят эвристический характер, реализуя принцип “здравого смысла”.
Техника кластерного анализа базируется на понятиях сходства объектов и широко применяется в медицине, ихтиологии, социологии, маркетинге, биологии и т. п. Несмотря на многообразие задач, типов данных и применяемых методов кластеризации, все исследования с применением кластерного анализа содержат пять основных этапов: определение объема выборки для кластеризации; определение информативных признаков, по которым будут сравниваться объекты в выборке; вычисление значений меры сходства между объектами; применение метода кластерного анализа для формирования групп сходных объектов; проверка достоверности результатов кластерного анализа.
Выборка формируется конкретно для каждой задачи. Обычной формой представления данных служит обычная прямоугольная таблица (матрица с числом строк, равным количеству объектов, и с числом столбцов, равных количеству признаков). Данные представляются в виде таблицы в СУБД или электронных таблицах в dbf-формате.
Определение информативных признаков, в пространстве которых будет осуществляться кластеризация, является одним из наиболее важных и ответственных шагов. Основная проблема состоит в том, чтобы найти такую совокупность признаков, которая наилучшим образом отражала бы понятие сходства. При этом количество информативных признаков не должно превышать 5—6, в противном случае будет формироваться большое количество кластеров, что существенно затрудняет анализ.
Применение кластерного анализа для создания групп сходных объектов (кластеров) является основным этапом решения задачи. Под кластером понимают области пространства признаков с относительно высокой плотностью точек, отделенные от других таких же областей областями с относительно низкой плотностью точек. Разработано большое количество кластерных методов, которые образуют семь основных семейств.
Все исследования проводились с помощью пакета “Сегмент”, в котором реализованы наиболее популярные методы кластерного анализа (метод Форэл, метод одиночной связи, иерархический метод) с использованием метрик евклидово расстояние, квадрат евклидова расстояния и расстояние городских кварталов. В пакете реализованы также расчет корреляционной матрицы, построение корреляционных полей, гистограмм по всей выборке, а также для одного или нескольких кластеров, представление исходных данных и результатов обработки в графическом виде или в виде файлов.
Задача заключалась в том, чтобы определить комплексную методику, направленную на устранение профессиональной офтальмопатии и негативных последствий вынужденной гипокинезии. На предприятиях были обследованы более тысячи человек, занятых зрительно-напряженным трудом (микроскописты и пользователи компьютеров) в возрасте от18 до 60 лет со стажем работы от 3-х до 60 лет и рефракцией от -6,0 диоптрий до +4,5. По данным анкетирования для большинства из них требовалось проведение профилактических и реабилитационных мероприятий.
Состояние каждого пациента до реабилитации характеризовалось одиннадцатью параметрами: острота зрения правого и левого глаза, рефракция правого и левого глаза, ближайшая точка ясного видения и левого глаза, дальнейшая точка ясного видения правого и левого глаза, объем абсолютной аккомодации правого и левого глаза, анизоаккомодация. Необходимо было выделить из их числа только те параметры, которые содержали наибольшее количество информации о результатах воздействия трех разработанных реабилитационных методик.
Выбор осуществлялся средствами пакета “Сегмент” путем построения и анализа корреляционной матрицы параметров, корреляционных полей и гистограмм с расчетом дисперсии, среднеквадратического отклонения и математического ожидания. В результате были выбраны три информативных признака: объем абсолютной аккомодации правого и левого глаза, анизоаккомодация. Значения этих трех признаков фиксировались до лечения, после десяти и пятнадцати сеансов лечебных процедур для каждого варианта реабилитационных методик.
Затем в пространстве этих трех признаков производилось построение трех кластеров: попадание объекта в кластер № 1 означало отсутствие воздействия лечения, в кластер № 2 — лечение принесло пользу, в кластер № 3 — нанесение вреда в результате лечения. Такие построения кластеров производились для интервалов: ДО и ПОСЛЕ 10 сеансов лечебных процедур, ДО и ПОСЛЕ 15 сеансов, ПОСЛЕ 10 сеансов и ПОСЛЕ 15 сеансов для каждого из трех предложенных вариантов реабилитационных методик.
Полученные результаты кластеризации подвергались анализу с помощью средств визуализации пакета “Сегмент”, которые позволяли проследить динамику миграции пациентов по трем указанным выше кластерам и определить наиболее оптимальный вариант реабилитационных методик в зависимости от возраста и профессионального стажа пациента.

© 2009 ООО "Информационные технологии в медицине"
[AD]