Scientific journal
Fundamental research
ISSN 1812-7339
"Перечень" ВАК
ИФ РИНЦ = 1,674

EVALUATING THE EFFECTIVENESS OF THE USE ARTIFICIAL NEURAL NETWORKS IN MEDICAL AND ENVIRONMENTAL RESEARCH

Petrov S.B. 1 Sheshunov I.V. 1
1 Kirov State Medical Academy
In a scientific article contains material studies on the effectiveness of the use of artificial neural networks in medical and environmental research. We studied the following types of neural network models: based on multilayer perceptron (MLP), radial basis function (RBF) and generalized regression network (GRNS). The control group used the linear model. Were received and analyzed 92 neural network models, 20 of them GRNS, 30 RBF, 31 MLP and 11 linear models. Evaluating the effectiveness of neural network models based on the following parameters: performance model, the magnitude of the error on the test sample, the ratio of the standard deviation (SD) of the prediction error and the original data, as well as the Pearson correlation between the observed and predicted by the model parameters. Found that linear models have a low level of efficiency in predicting the spread of disease. Among the studied neural network models have the highest quality prediction model based on generalized regression neural networks, and especially – based networks using radial basis functions. Quality indicators in predicting neural network models of each species (GRNS, RBF and MLP) are variable enough that requires careful selection of the most effective networks.
artificial neural networks
effectiveness of neural network models
quality prediction
medical and environmental research
1. Borovikov V.P. Nejronnye seti. STATISTICA Neural Networks. Metodologija i tehnologii sovremennogo analiza dannyh [STATISTICA Neural Networks. The methodology and technology of modern data analysis]. Moscow, Gorjachaja linija – Telekom, 2008. 392 p.
2. Golovko V.A. Nejronnye seti: obuchenie, organizacija i primenenie [Neural networks: training, organization and application]. Moscow, IPRZhR, 2001. 256 p.
3. Komarcova L.G. Nejrokomp’jutery [Neurocomputers]. Moscow, MGTU, 2002. 320 p.
4. Kuz’min S.V. Vestnik RGMU, 2004, no.7, pp. 42–45.
5. Majmulov V.G., Nagornyj S.V. Vestnik Sankt-Peterburgskoj gos. med. akademii im. I.I. Mechnikova, 2000, no.1, pp. 22–25.
6. Fausett L. Fundamentals of Neural Networks. New York: Prentice Hall, 1994.

Оценка и прогнозирование риска здоровью населения в связи с воздействием химических загрязнителей атмосферного воздуха городской среды является важной задачей мониторинга здоровья городского населения. Современные методы оценки и прогнозирования риска здоровью населения основаны на установлении причинно-следственных связей в системе «экологические факторы среды обитания – здоровье населения» [4, 5]. Существующие методики установления причинно-следственных связей, как правило, используют линейные модели, что существенно ограничивает возможности их применения. В связи с этим особый интерес представляет применение искусственных нейронных сетей, способных моделировать как линейные, так и сложные нелинейные зависимости [1, 3, 6].

Целью настоящего исследования является оценка эффективности применения искусственных нейронных сетей в медико-экологических исследованиях. В задачи исследования входило формирование обучающей выборки, построение нейросетевых моделей причинно-следственных связей, оценка качества прогноза по каждому виду искусственной нейронной сети.

Материалы и методы исследования

Для расчета приземных концентраций контролируемых химических загрязнителей атмосферного воздуха использовались результаты наблюдения территориального экологического мониторинга за трехлетний период с вычислением средних значений по каждому химическому веществу.

В среде УПРЗА «Эко центр» была выполнена экстраполяция усредненных данных санитарно-химических исследований на площадь каждого района обслуживания ЛПУ с вычислением приземной концентрации каждого контролируемого загрязнителя с учетом среднегодовой розы ветров.

Путем сопоставления множества значений приземных концентраций вредных химических веществ и сведений по уровню заболеваемости детского населения была получены обучающая и тестовая выборки для искусственной нейронной сети, где в качестве входных переменных представлены значения концентраций выбранных загрязнителей атмосферного воздуха в мг/м3, выходными же переменными являются уровни заболеваемости на 1000 человек детского населения по классам болезней согласно МКБ-10.

Изучались следующие виды нейросетевых моделей: на основе многослойного персептрона (МСП), радиально-базисной функции (РБФ) и обобщенно-регрессионной сети (ОРНС). В качестве контрольной группы сетей использовались линейные нейронные сети, моделирующие линейную зависимость (фактически – аналог множественной линейной регрессии) [2, 6]. Всего было получено и проанализировано 92 нейросетевых моделей, из них 20 ОРНС, 30 РБФ, 31 МСП и 11 линейных моделей. Оценка эффективности нейросетевых моделей производилась по следующим параметрам: производительность модели, величина ошибки на тестовой выборке, отношение стандартных отклонений (SD ratio) ошибки прогноза и исходных данных, а также корреляции Пирсона между наблюдаемыми и предсказанными моделью показателями [1]. Нормальность распределения изучаемых показателей оценивалась с помощью теста Шапиро‒Вилка. Поскольку все величины имели распределение, близкое к нормальному, результаты исследования представлены в виде среднего арифметического ± стандартное отклонение (M ± SD). Статистическая значимость различий параметров изучаемых сетей оценивалась при помощи критерия Стьюдента для несвязанных выборок с предварительным выполнением проверки равенства дисперсий (тест Левена). Критическим уровнем значимости различия был выбран уровень p < 0,05. Статистическая обработка данных выполнена в программе Statistica 6.1.

Результаты исследования и их обсуждение

Результаты оценки производительности и ошибки прогноза изучаемых нейронных сетей представлены в табл. 1.

Как видно из данной таблицы, наибольшей производительностью обладают линейные модели, наименьшей – модели на основе радиально-базисных функций. По производительности все изучаемые нейросетевые модели статистически значимо отличаются от контрольных линейных моделей. В то же время сети на основе РБФ, наряду с обобщенно-регрессионными сетями показали наименьшее значение ошибки прогноза на тестовой выборке.

Худший результат по ошибке прогноза выдали модели на основе многослойного персептрона. Кроме того, МСП-модели обладают и наибольшей вариабельностью как по производительности сети, так и по значению ошибки прогноза на тестовой выборке. Нейросетевые модели на основе РБФ имеют наименьшую вариабельность по производительности и ошибке прогноза.

Таблица 1

Производительность и ошибка прогноза нейросетевых моделей

Тип сети

Производительность сети

Ошибка сети на тестовой выборке

M ± SD

M ± SD

Линейные

0,84 ± 0,06

0,26 ± 0,01

ОРНС

0,62 ± 0,19*

0,05 ± 0,004*

РБФ

0,50 ± 0,15*

0,05 ± 0,01*

МСП

0,67 ± 0,24*

0,30 ± 0,09

Примечание. * – различие с показателем тестовой выборки статистически значимо (p < 0,05).

Качество прогноза, определяемое сравнением наблюдаемых данных с предсказанными принято оценивать с помощью отношения стандартных (средних квадратических) отклонений ошибок прогноза и исходных данных, вторым методом часто используется оценка корреляционной зависимости между наблюдаемыми и предсказанными данными [1, 2].

Результаты оценки отношения стандартных отклонений ошибки прогноза и исходных данных изучаемых нейросетевых моделей по основным классам болезней представлены в табл. 2.

Как демонстрирует таблица, модели на основе ОРНС и РБФ статистически значимо отличаются от контрольной группы по параметру SD ratio при прогнозировании распространенной заболеваемости во всех классах болезней, данное различие особо отмечается в РБФ-моделях. Результаты, полученные в нейросетевых моделях на основе многослойного персептрона, статистически значимо не отличались от данных контрольной группы.

Наилучшие значения для ОРНС-моделей было достигнуто при прогнозе уровня распространенности болезней кожи, системы кровообращения, костно-мышечной и мочеполовой систем, а также органов системы дыхания. Для моделей на основе РБФ-сетей лучшие значения были получены для болезней кожи, мочеполовой системы, костно-мышечной системы, системы кровообращения, органов дыхания и нервной системы.

Таблица 2

Отношение стандартных отклонений (SD ratio) ошибки прогноза и исходных данных изучаемых нейросетевых моделей

Класс болезней

Тип сети

Линейные M ± SD

ОРНС M ± SD

РБС M ± SD

МПС M ± SD

Новообразования

0,97 ± 0,01

0,63 ± 0,23*

0,52 ± 0,14*

0,90 ± 0,26

Болезни крови

0,87 ± 0,05

0,61 ± 0,21*

0,45 ± 0,15*

0,79 ± 0,44

Болезни эндокринной системы

0,81 ± 0,04

0,59 ± 0,21*

0,44 ± 0,17*

0,79 ± 0,26

Болезни нервной системы

0,69 ± 0,05

0,50 ± 0,21*

0,39 ± 0,18*

0,69 ± 0,38

Бол. глаза и его придаточного апп.

0,87 ± 0,08

0,60 ± 0,25*

0,43 ± 0,16*

0,78 ± 0,47

Бол. уха и сосцевидного отростка

0,83 ± 0,07

0,54 ± 0,24*

0,39 ± 0,17*

0,87 ± 0,60

Болезни системы кровообращения

0,68 ± 0,11

0,46 ± 0,24*

0,35 ± 0,20*

0,54 ± 0,27

Болезни органов дыхания

0,71 ± 0,10

0,49 ± 0,23*

0,39 ± 0,19*

0,59 ± 0,28

Болезни органов пищеварения

0,76 ± 0,03

0,55 ± 0,20*

0,46 ± 0,16*

0,75 ± 0,22

Болезни кожи, подкожной клетчатки

0,65 ± 0,03

0,42 ± 0,20*

0,33 ± 0,19*

0,57 ± 0,22

Болезни костно-мышечной системы

0,77 ± 0,05

0,48 ± 0,25*

0,36 ± 0,18*

0,70 ± 0,26

Болезни мочеполовой системы

0,81 ± 0,09

0,48 ± 0,29*

0,31 ± 0,19*

0,65 ± 0,13

Отд. состояния в перинатальном периоде

0,77 ± 0,09

0,59 ± 0,20*

0,45 ± 0,16*

0,65 ± 0,23

Врожденные аномалии

0,84 ± 0,07

0,52 ± 0,23*

0,39 ± 0,17*

0,69 ± 0,46

Общий уровень

0,85 ± 0,06

0,62 ± 0,20*

0,49 ± 0,15*

0,76 ± 0,29

Примечание. * – различие с показателем контрольной группы статистически значимо (p < 0,05).

В моделях на основе 3- и 4-слойного МСП лучшие результаты отмечены при прогнозе уровня распространенности болезней кожи и органов дыхания. В целом по всем классам болезней наименьшие значения SD ratio, а значит, и наибольшая точность прогноза отмечены при прогнозировании уровня распространенности с помощью нейронных сетей на основе РБФ.

Отдельного внимания заслуживает оценка вариабельности SD ratio для разных классов болезней. В контрольной группе наблюдается самое низкое значение рассеяния изучаемого показателя (по стандартному отклонению), что обусловлено относительной простотой линейных моделей. Наибольшие значения вариабельности показателя SD ratio выявлены при изучении нейросетевых моделей на основе 3- и 4-слойного МСП – что может говорить о большом разбросе качества прогноза в подобных сетях – как в худшую, так и в лучшую сторону. Промежуточное значение по вариабельности SD ratio занимают ОРНС- и РБФ-модели.

Еще одним важным показателем качества прогнозирования в нейросетевых моделях является мера корреляционной зависимости наблюдаемых и предсказанных выходных данных модели. В качестве такой меры, как правило выступает коэффициент корреляции Пирсона (r).

Оценка корреляционной зависимости наблюдаемых и предсказанных выходных данных изучаемых нейросетевых моделей по основным классам болезней представлены в табл. 3.

Данная таблица показывает, что корреляционные связи между результатами прогноза, полученными с помощью линейных моделей, входящих в контрольную группу, и наблюдаемыми данными имеют довольно высокие значения по силе связи, особенно выделяются прогнозы в отношении болезней кожи и подкожной клетчатки, системы кровообращения и органов дыхания.

Выходные данные моделей на основе ОРНС и РБФ имеют сильную прямую корреляционную связь с наблюдаемыми данными и статистически значимо отличаются от контрольной группы во всех классах болезней. Корреляция между предсказанными значениями выходных данных моделей на основе МСП и наблюдаемыми данными ниже, чем в случае ОРНС- и РБФ-моделей.

Кроме того, для большинства классов болезней значения коэффициентов корреляции МСП-моделей не имели статистически значимого отличия от аналогичных показателей контрольной группы, за исключением новообразований, болезней глаза и его придаточного аппарата, болезней мочеполовой системы, отдельных состояний в перинатальном периоде и врожденных аномалий.

Оценка вариабельности коэффициентов корреляции не выявила значительных различий между изучаемыми моделями.

Таблица 3

Оценка корреляционной зависимости наблюдаемых и предсказанных выходных данных

Класс болезней

Тип сети

Линейные M ± SD

ОРНС M ± SD

РБС M ± SD

МПС M ± SD

Новообразования

0,23 ± 0,06

0,72 ± 0,24*

0,79 ± 0,24*

0,47 ± 0,24*

Болезни крови

0,49 ± 0,10

0,76 ± 0,17*

0,87 ± 0,19*

0,65 ± 0,25

Болезни эндокринной системы

0,58 ± 0,07

0,78 ± 0,15*

0,86 ± 0,22*

0,62 ± 0,21

Болезни нервной системы

0,72 ± 0,05

0,85 ± 0,12*

0,88 ± 0,23*

0,74 ± 0,24

Бол. глаза и его придаточного апп.

0,46 ± 0,21

0,76 ± 0,21*

0,87 ± 0,19*

0,68 ± 0,22*

Бол. уха и сосцевидного отростка

0,54 ± 0,13

0,80 ± 0,19*

0,87 ± 0,20*

0,65 ± 0,26

Болезни системы кровообращения

0,72 ± 0,14

0,87 ± 0,13*

0,90 ± 0,22*

0,79 ± 0,33

Болезни органов дыхания

0,69 ± 0,14

0,86 ± 0,12*

0,88 ± 0,20*

0,77 ± 0,21

Болезни органов пищеварения

0,65 ± 0,04

0,82 ± 0,14*

0,82 ± 0,24*

0,69 ± 0,14

Бол. кожи и подкожной клетчатки

0,76 ± 0,03

0,90 ± 0,08*

0,90 ± 0,23*

0,79 ± 0,23

Болезни костно-мышечной системы

0,64 ± 0,07

0,85 ± 0,15*

0,87 ± 0,23*

0,68 ± 0,31

Болезни мочеполовой системы

0,55 ± 0,18

0,83 ± 0,20*

0,90 ± 0,21*

0,74 ± 0,14*

Отд. состояния в перинатальном периоде

0,61 ± 0,16

0,80 ± 0,13*

0,84 ± 0,21*

0,77 ± 0,15*

Врожденные аномалии

0,52 ± 0,17

0,84 ± 0,14*

0,89 ± 0,19*

0,75 ± 0,23*

Общий уровень

0,51 ± 0,16

0,76 ± 0,16*

0,82 ± 0,20*

0,67 ± 0,24

Примечание. * – различие с показателем контрольной группы статистически значимо (p < 0,05).

Результаты анализа показателей эффективности нейросетевых моделей позволили сделать ряд выводов:

– линейные модели обладают невысокой эффективностью в прогнозировании уровня распространенной заболеваемости, что косвенно указывает на наличие сложных нелинейных зависимостей между загрязнением атмосферного воздуха вредными химическими веществами и уровнем заболеваемости детского населения;

– лучшие результаты при прогнозировании частоты распространенности заболеваний в зависимости от уровня загрязненности атмосферного воздуха вредными химическими веществами дают модели на основе искусственных нейронных сетей;

– прогностическая эффективность нейросетевых моделей на основе 3-х или 4-слойного персептрона при моделировании зависимости уровня распространенности заболеваний от величины концентраций химических загрязнителей атмосферы практически не отличается от эффективности простых линейных моделей;

– среди изученных нейросетевых моделей наибольшим качеством прогноза обладают модели на основе обобщенно-регрессионных нейронных сетей и особенно – на основе сетей, использующих радиально-базисные функции (РБФ-сети);

– показатели качества прогнозирования в нейросетевых моделях каждого вида (ОРНС, РБФ и МСП) довольно вариабельны, что требует тщательного отбора наиболее эффективных сетей.

Рецензенты:

Куковякин С.А., д.м.н., профессор, заведующий кафедрой общественного здоровья и здравоохранения, ГБОУ ВПО «Кировская государственная медицинская академия» Минздрава России, г. Киров;

Трушков В.Ф., д.м.н., профессор, заведующий кафедрой общей гигиены, ГБОУ ВПО «Кировская государственная медицинская академия» Минздрава России, г. Киров.

Работа поступила в редакцию 05.12.2013.