Возможность предсказать риск возникновения заболевания имеет большое практическое значение. С целью идентификации взаимосвязей между характером, стажем работы и вероятностью развития ХОБЛ у работающих производства синтетических моющих средств был проведен математический анализ анамнестических, клинико-функциональных, биохимических, иммунологических, инструментальных, биологических, психофизиологических параметров.
В описании исследуемых объектов присутствуют нечисловые данные, что ограничивает применимость большинства классических методов математической статистики. Математический аппарат статистики объектов нечисловой природы базируется на использовании расстояний (мер близости, показателей различия) в пространствах таких объектов. Это вызвано отсутствием в таких пространствах операций суммирования, на которых основано большинство методов других областей статистики. Одним из методов многомерного анализа нечисловых данных является анализ соответствия (Каримов Р. Н., 2003). Целью анализа соответствия является представление многомерных нечисловых данных в координатном пространстве латентных переменных малой размерности в надежде получить хорошо интерпретируемую конфигурацию исследуемых объектов (признаков)-точек. Результатом применения метода является геометрическая конфигурация исследуемых групп и признаков как точек в координатном пространстве, причем мерой сходства между объектами можно считать расстояние между соответствующими им точками в полученном пространстве. Близкие точки соответствуют похожим отображаемым ими объектам, а далекие - менее похожим. Если расстояние между двумя точками по какой-либо оси координатного пространства велико, то по корреляциям признаков с этой осью можно делать вывод о том, что же определяет существенные различия между объектами и дать интерпретацию осям. Была реализована методика применения анализа соответствия для решения задач диагностики. Исходными являются анкетные данные 160 обследуемых. Данные содержат и количественные (возраст, гемоглобин, СОЭ, лейкоциты, эозинофилы, холестерин общий), и качественные (пол, курение, возникновение кашля с мокротой, характер одышки) измерения. Для применения метода количественные параметры были выражены в номинальных шкалах. Были получены таблицы сопряженности признаков (ТСП) при группировке по диагнозу (нет заболевания (Здоров) и хроническая обструктивная болезнь легких (ХОБЛ)). Методом анализа соответствия были получены геометрические конфигурации точек соответствующих строкам ТСП (параметры), и столбцам ТСП (диагнозы). Оценивали возможность возникновения ХОБЛ в зависимости от отобранных наиболее значимых переменных: возраста, пола, продолжительности работы на предприятии, курения, количества выкуриваемых сигарет в день, индекса курения, анамнеза пачка/лет, наиболее частых заболеваний за последний год, возникновения кашля, усиления кашля, кашля с отделением мокроты, характера одышки, покраснения участков тела кожных покровов, показателей гемоглобина, лейкоцитов, СОЭ, эозинофилов, общего холестерина, триглицеридов, АлАТ, АсАТ, фибриногена, ПТИ, общего белка, непрямого билирубина, общего Ig E, теста аллергической альтерации лейкоцитов, ЖЕЛ, ОФВ1, ФЖЕЛ, ОФВ1/ФЖЕЛ, ПОСВ, ФОС25%, ФОС75%, изменения рентгенограммы, хемилюминесценции, типа работоспособности, биологического возраста (БВ), разницы БВ-ДБВ, функционального класса БВ, группы психофизиологических показателей и социального статуса. Большая часть признаков выражалась дихотомическими данными, остальная часть - полихотомическими. Далее все признаки были преобразованы к квазиквантативным данным, что привело к увеличению размерности признаков от 42 до 127. Для построения структурной модели диагнозов применена процедура анализа соответствий. После сингулярного разложения матрицы данных получались сингулярные числа σі, определялись доли собственных значений λ:=σ² в процентах от общей суммы ∆λ j= (λ j /∑ j λ j) x 100% и накопленный процент. Находили χ² - статистику с числом степеней свободы (r-1) x (c-1) x χ²: = ∑і ∑j (Z і, j)² x n и инерции по диагнозам. Определялась инерция признаков (чем больше была инерция признака, тем важнее он был для прогнозирования). Для осуществления диагностики использован следующий подход. Каждому пациенту соответствовало сочетание из 42 параметров. Если рассчитать среднюю точку по координатам параметров присутствующих у пациента, то можно отобразить каждого пациента одной точкой в данном координатном пространстве. Если же для каждой группы посчитаем среднюю точку по пациентам входящим в эту группу и разделим полученные координаты на сингулярные числа, соответствующие осям координат, то получим конфигурацию групп. Таким образом, зная координаты параметров, можно рассчитать координаты пациента в пространстве и устанавливать принадлежность пациента к группе по степени удаленности точки, соответствующей пациенту, от центров групп. Найденная конфигурация точек структурной модели позволяет отнести их к одной плоскости. Определялась принадлежность к той или иной группе по расстоянию до точки пациента (по минимальному - ХОБЛ) или вычислялась среднеарифметическая и сравнивалась координата пациента с 0,1 - это середина. Если координата <0,1, то работник здоров, если >0,1, то у работника есть ХОБЛ. Вероятность наличия заболевания трактовалась как вероятность попадания (классификации) точки, представляющей обследуемого в пространстве диагностических признаков, в область, соответствующую данному заболеванию. Определяли дискриминирующие функции для оценки возможности формирования ХОБЛ, то есть для разделения работников на две группы: здоровые и вероятно развитие ХОБЛ.
Дискриминирующие функции x для k-ой группы имели вид:
где x - координаты по оси 1
k - число групп
aі - координаты признаков в пространстве
pі - значения информативных признаков (0- нет признака, 1- есть признак)
∑ - сумма признаков
n- число переменных
і - переменная
В данном случае p=42, k=2. Основанием отнесения к k-ой группе являлось наименьшее значение дискриминирующей функции x. Из координаты признаков получали координаты пациентов x: 0 и 1 умножали на координату признаков и делили на 42 единицы бинарных признаков.
Вероятность правильной классификации составила 97,5%. Дискриминантный анализ позволил оценить адекватность классификации обследованных и показал достаточно высокий процент правильного распознавания. Однако дискриминантные функции устанавливали только сам факт возникновения или отсутствия ХОБЛ, поскольку фактически осуществляли классификацию обследованных по двум группам (здоровые и рабочие с ХОБЛ). Разработанная программа являлась более гибким средством прогнозирования, поскольку она определяла значение признака. Для проверки точности классификации применяют классификационные функции к тем объектам, по которым они были получены. Полученные результаты статистического анализа позволили прогнозировать значение признака у пациентов и относить пациента к группе здоровых или группе больных ХОБЛ. Большую практическую значимость имеет созданная на основе исследования специальная информационно-аналитическая программа, доступная в обслуживании всему врачебному персоналу, позволяющая ставить диагноз ХОБЛ по 42 признакам, на основе информативности признаков и расчета координат пациентов. Сравнение совпадения постановки диагноза ХОБЛ и диагноза здоров прогнозировалось программой и совпадала в 97,5%. Другим преимуществом разработанной методики является возможность диагностики по неполному набору параметров. Например, если при поступлении у пациента есть только 35 признаков, то мы их набираем в программе, нажимаем «Пересчет по уравнению», делим не на 42 бинарных признака, а на 35 и получаем отображение по координате и диаграмме пациента прогноз диагноза - здоров он или болен ХОБЛ. Также по диаграмме расположения пациента и диагнозов можно определять пограничные (сомнительные) результаты прогноза для проведения возможно более глубокого анализа. Метод не лишен ошибок. Выявилось 4 ошибки (попадание пациентов в пограничную зону): по анкетным данным - это здоровые лица, а программа определила их как лиц с ХОБЛ. Эти лица рассматривались как группа риска ХОБЛ, требующая наблюдения, в последующем обследование их в динамике подтвердило сделанный прогноз.