Scientific journal
Fundamental research
ISSN 1812-7339
"Перечень" ВАК
ИФ РИНЦ = 1,749

TECHNIQUE OF ESTIMATION OF PARAMETERS OF RANDOM VALUE WITH MIXED BIMODAL DISTRIBUTION LAW BASED ON COMBINED USAGE OF ROZENBLATT-PARZEN APPROXIMATION, IMAGINARY SOURCES METHOD AND GENETIC ALGORITHMS

Porshnev S.V. 1 Koposov A.S. 1
1 Ural Federal University named after the first President of Russia B.N. Yeltsin Institute of Radioelectronics and Information Technologies
1236 KB
In this article are considered the results of combined usage of Rozenblatt – Parzen approximation and imaginary sources method for estimation of the parameters of random value with mixed bimodal distribution law. We have examined random sequences with mixed distribution law containing two peaks. At the first stage we calculated Rozenblatt – Parzen approximation, which gives estimation of mean values. At the second stage using genetic algorithms with fitness function defined in accordance with imaginary sources method we solved for other parameters. Estimation of calculation accuracy of parameters was performed by comparison of theoretical parameters with experimental ones. The analysis of proposed method application results allows us to make the following conclusions: using genetic algorithms for solving all nine parameters simultaneously produces a 50 % error. This is the result from a high-dimensional problem. We have proposed a technique of a sequential solving for distribution parameters.
cumulative distribution function
Rozenblatt – Parzen approximation
genetic algorithms
bimodal distribution
imaginary sources method
1. Kramer G. Matematicheskie metody statistiki. M.: Mir, 1975. 648 p.
2. Syzrancev V.N. Raschet prochnostnoy nadezhnosti izdeliy na osnove metodov neparametricheskoy statistiki. V.N. Syzrancev, J.P. Nevelev, S.L. Golofast. Novosibirsk: Nauka, 2008. 218 p.
3. Porshnev S.V. Teoriya i algoritmy approksimacii empiricheskih zavisimostey i raspredeleniy. E.V. Ovechkina, V.E. Kaplan. Ekaterinburg: UrO RAN, 2006. 166 p.
4. Simahin V.A. Robastnye neparametricheskie ocenki: adaptivnye ocenki vzveshennogo maksimal’nogo pravdopodobiya v usloviyah statisticheskoy apriornoy neopredelennosti. V.A. Simahin. Saarbrucken, Germany: LAP LAMBERT Academic Publishing Gmb H&Co. KG, 2011. 292 p.
5. Porshnev S.V., Koposov A.S. Ispol’zovanie approksimacii Rozenblatta-Parzena dlya vosstanovleniya funkcii raspredeleniya diskretnoy sluchainoy velichiny. V mire nauchnyh otkrytiy. 2013 no. 10(46).
6. Porshnev S.V., Koposov A.S. Ispol’zovanie approksimacii Rozenblatta-Parzena dlja vosstanovlenija funkcii raspredelenija nepreryvnoj sluchajnoj velichiny s ogranichennym odnomodal’nym zakonom raspredelenija. Politematicheskiy setevoy elektronniy nauchniy zhurnal Kubanskogo gosudarstvennogo agrarnogo universiteta (Nauchniy zhurnal KubGAU) [Elektronniy resurs]. Krasnodar: KubGAU, 2013. no. 08(092). IDA [article ID]: 0921308076. http://ej.kubagro.ru/2013/08/pdf/76.pdf.
7. Gladkov L.A., Kurejchik V.V., Kurejchik V.M. Geneticheskie algoritmy. Pod red. V.M. Kurejchika. 2-e izd., ispravl. i dop. M.: FIZMATLIT, 2010. 368 p.
8. Rozenblatt M. Remarks on some nonparametric estimates of density function. Ann. Math. Statist., 1956, 27, 832–835 p.
9. Parzen E. On estimation of probability density function and mode. Ann. Math. Statist., 33, 3, 162, 1065–1076 p.

Восстановление функции распределения по выборке случайных данных, полученных в результате проведения тех или иных экспериментов, является основной задачей математической статистики [1], которая имеет важное практическое значение, например, при решении задач прочностной надежности элементов и объектов нефтегазового оборудования [2]. Обсуждаемая задача имеет следующую постановку: по экспериментальной выборке значений случайной величины porshnev01.wmf из генеральной совокупности найти функцию распределения F(y) = Pr{X ≤ y}, связанную с плотностью распределения f(y) интегральным отношением:

porshnev02.wmf. (1)

Известны два основных подхода к решению этой задачи: параметрический и непараметрический.

Параметрический подход предусматривает выбор на основе той априорной информации вида функции распределения случайной величины F(y), зависящей от некоторого набора параметров, и получении оценок их значений по имеющейся выборке данных, обеспечивающих максимальную близость теоретической функции распределения F(y) и эмпирической функции распределения

porshnev03.wmf (2)

где функция Хэвисайда

porshnev04.wmf

в соответствии с выбранной мерой близости, зависящей, вообще говоря, от вида распределения [3].

Существование решения обсуждаемой задачи обеспечивает центральная теорема математической статистики, согласно которой с ростом объема выборки N функция FN(y) с вероятностью, равной единице, равномерно приближается к F(y):

porshnev05.wmf

В основе непараметрической статистики лежит подход, позволяющий получать адаптивные оценки эмпирических распределений в виде некоторых функционалов, не зависящих от вида неизвестного априорного распределения [4]. Для восстановления неизвестной функции распределения в непараметрической статистике известен ряд методов и алгоритмов [4]: метод гистограмм, «гребенка», метод ближайших соседей, метод разложения по базисным функциям, аппроксимация Розенблатта – Парзена и ряд других. Работоспособность методов непараметрической статистики и целесообразность их применения при анализе экспериментальных данных подтверждается результатами, полученными различными исследователями (см. список литературы к разделу «Введение» в [4]). Например, в [2] показано, что аппроксимация Розенблатта – Парзена оказывается весьма эффективной в задаче оценки долговечности нефте- и газопроводов на основе анализа накопленной статистической информации.

Результаты исследования особенностей аппроксимации Розенблатта – Парзена в задаче аппроксимации одномодальных распределений дискретных и непрерывных случайных величин с ограниченной областью изложены в [5, 6] соответственно.

В связи с тем, что на практике, например при оценке прочностной надежности изделий [2] или анализе суточной выработки экскаваторов на горных работах [3], требуется получение оценок распределений случайных величин с двумодальными законами распределения, разработка методов оценки их параметров является актуальной задачей.

В данной статье приведено описание и обоснование методики оценки параметров двумодального распределения случайной величины, каждая мода которого имеет нормальный закон распределения с ограниченной областью рассеяния.

Функция изучаемого распределения записывается в следующем виде:

porshnev06.wmf (3)

где μ1 – математическое ожидание первой составляющей; σ1 – математическое ожидание первой составляющей; a1, b1 – границы области рассеяния первой составляющей; μ2 – математическое ожидание первой составляющей; σ2 – математическое ожидание первой составляющей; a2, b2 – границы области рассеяния первой составляющей; α – доля первой составляющей в общем распределении.

Пример двумодальной функции распределения случайной величины, каждая мода которого имеет нормальный закон распределения с ограниченной областью рассеяния, представлен на рис. 1.

Отметим, что в общем случае задача оценки параметров распределения сводится к решению той или иной системы нелинейных уравнений, для которых в подавляющем большинстве случаев приходится использовать соответствующие численные методы, например, итерационный метод Ньютона. Однако сходимость интеграционной последовательности к истинному решению оказывается очень сильно зависящей от выбора начального приближения. Вследствие этого в рассматриваемой задаче представляется перспективным использовать эвристические методы случайного поиска, результативность которых, как утверждается, не зависит от начального приближения и позволяет найти оптимальное решение при любых начальных условиях. Одним из таких методов являются генетические алгоритмы (ГА) [7], которые были использованы в проведенном исследовании.

На первом этапе исследования была изучена возможность одновременного получения оценок всех значений параметров двумодального распределения μ1, σ1, a1, b1, μ2, σ2, a2, b2, α с помощью ГА, в котором в качестве целевой функции использовались среднеквадратические отклонения отсортированной по возрастанию исходной последовательности и отсортированной по возрастанию последовательности, сгенерированной в соответствии с экспериментальным законом распределения (3):

porshnev07.wmf (4)

где N – число элементов в исходной выборке; x – исходная выборка; x* – выборка, сгенерированная с помощью метода обратного преобразования в соответствии с законом (3) и текущими значениями параметров распределения, задаваемых ГА.

pic_10.wmf

Рис. 1. Пример двумодального распределения: 1 – гистограмма случайной последовательности; 2 – плотность распределения случайной величины; 3 – график функции dF1(x, μ1, σ1, a1, b1)/dx; 4 – график функции dF2(x, μ2, σ2, a2, b2)/dx

Методика оценивания параметров двумодального распределения

Результаты многочисленных вычислительных экспериментов, проведенных при различных настройках ГА, показали, что получаемые значения были далеки от истинных – средняя погрешность вычислений составила боле 50 %. Этот результат, с нашей точки зрения, объясняется высокой размерностью пространства, в котором ищется минимум функции (7). Таким образом, прямое решение данной задачи с помощью ГА не является приемлемым. В этой связи возникла необходимость разработки методики решения рассматриваемой задачи, позволяющей уменьшить размерность пространства, в котором ищется минимум функции (4), за счет оценки одного или нескольких параметров, не используя ГА.

Для реализации данной идеи было предложено использовать метод Розенблатта ‒ Парзена, позволяющий аппроксимировать функции плотности распределения [8, 9, 6]. Результаты применения метода Розенблатта – Парзена к случайной последовательности с двумодальным распределением представлен на рис. 2.

pic_11.wmf

Рис. 2. Плотность двумодального распределения: 1 – теоретическая плотность двумодального распределения; 2 – аппроксимация Розенблатта – Парзена плотности распределения случайной последовательности, сгенерированной в соответствии с теоретическим законом распределения

Из рис. 2 видно, что на основе анализа аппроксимирующей кривой можно получать оценки математических ожиданий каждой из мод исходного распределения μ1,2, а также левую границу первой составляющей a1 и правую границу второй составляющей b2. Таким образом, с помощью ГА остается вычислить следующие параметры распределения σ1, b1, σ2, a2, α, т.е. удается уменьшить размерность задачи с 9 до 5.

Таким образом, методика нахождения параметров двумодального распределения случайной последовательности porshnev08.wmf (3) реализуется выполнением следующей последовательности действий:

1. Вычисление в соответствии с методом Розенблатта – Парзена значений функции, аппроксимирующей плотность распределения (3), – FRP(x).

2. Вычисление оценок значений параметров porshnev09.wmf – абсцисс локальных максимумов функции FRP(x).

3. Вычисление оценки левой границы области рассеяния моды распределения (3), описываемой функцией

porshnev10.wmf

4. Вычисление оценки правой границы области рассеяния моды распределения (3), описываемой функцией

porshnev11.wmf

5. Вычислить, используя ГА, значения параметров σ1, b1, σ2, a2, α.

В ходе проведенных исследований мы использовали следующие настройки ГА:

  • селекция: S = <равномерная; турнирная; на основе рулетки>;
  • мутация: M = <адаптивная>, т.к. в задаче присутствуют ограничения;
  • кроссовер: C = <одноточечный; двухточечный; усредненный; разбросанный, эвристический>;
  • доля кроссовера: Cfr = <0,3; 0,6; 0,9> (оставшаяся часть приходилась на мутацию);
  • размер популяции: P = <5, 15, 30>.

Таким образом, каждому из проведенных экспериментов можно поставить в соответствие определенный набор настроек – кортеж ⟨SS, Mm, CC, Cfrf, PPñ. Всего в проведенных экспериментах было рассмотрено

porshnev12.wmf

различных комбинаций настроек. Для каждого набора настроек было выполнено 50 независимых испытаний. Для повышения достоверности в качестве значений параметров porshnev13.wmf принимались средние по ансамблю испытаний значения.

Для количественной оценки качества найденных значений параметров porshnev14.wmf решения мы использовали величину Δx:

porshnev15.wmf (5)

где porshnev16.wmf

Для количественной оценки качества найденного значения параметра porshnev17.wmf мы использовали величину Δα:

porshnev18.wmf (6)

где αmax = 1.

Результаты расчетов погрешностей параметров porshnev19.wmf в соответствии с (5), (6) для тестовых последовательностей, генерируемых в соответствии с (3), где μ1 = 7, σ1 = 2, a1 = 3, b1 = 14, μ2 = 714, σ2 = 1, a2 = 6, b2 = 18, α = 0,5, представлены на рис. 3.

Из рис. 3 видно, что виды селекции и кроссовера не оказывают существенного влияния на погрешность вычисления параметров porshnev20.wmf. В то время как при увеличении доли кроссовера и числа особей в популяции точность вычисления ключевых параметров σ1, σ2, α увеличивается при одновременном увеличении времени расчетов. Приведем средние значения погрешностей параметров:

porshnev21.wmf porshnev22.wmf

porshnev23.wmf porshnev24.wmf

porshnev25.wmf

Для интегрального оценивания качества предложенной методики был использован следующий показатель:

porshnev26.wmf

значения которого в проведенных вычислительных экспериментах изменялись в диапазоне

porshnev27.wmf

где porshnev28.wmf porshnev29.wmf Наилучший результат porshnev30.wmf получен при следующих настройках ГА:

porshnev31.wmf

наихудший porshnev32.wmf

porshnev33.wmf

аpic_13.wmf б
вpic_12.wmf г

Рис. 3. а – погрешности в разрезе вида селекции – равномерной, на основе рулетки и турнирной селекции; б – погрешности в разрезе вида кроссовера – эвристический, усредненный, разбросанный, одноточечный и двухточечный; в – погрешности в разрезе доли кроссовера – 0,3; 0,6 и 0,9; г – погрешности в разрезе размера популяции – 5, 15 и 30 особей

Соответствующие параметры распределений представлены в таблице.

Теоретическая и экспериментальная плотности распределения представлены на рис. 4.

Наилучший и наихудший интегральные показатели

Параметры

porshnev34.wmf

porshnev35.wmf

porshnev36.wmf

porshnev37.wmf

porshnev38.wmf

porshnev39.wmf

porshnev40.wmf

porshnev41.wmf

porshnev42.wmf

Δintegr

Теоретические значения

7

2

3

14

14

1

6

18

0,5

Наихудший результат

7,225

1,869

3,023

6,109

14,014

0,956

9,014

17,977

0,813

1,776

Наилучший результат

7,225

2,113

3,023

15,203

14,014

1,051

5,269

17,977

0,474

0,006

pic_16.wmf

Рис. 4. 1 – Теоретическая и экспериментальная porshnev43.wmf плотности: теоретическая плотность распределения; 2 – экспериментальная плотность распределения

Таким образом, полученные результаты позволяют сделать вывод о том, что предложенная методика в целом обеспечивает вполне приемлемый результат и ее можно использовать для оценивания параметров двумодальных распределений вида (3).

Выводы

Анализ результатов совместного применения аппроксимации Розенблатта – Парзена, метода мнимых источников и генетических алгоритмов в задаче оценивания значений параметров распределений случайных последовательностей двумодальными законами распределения вида (3), относящегося к классу 9-ти параметрических распределений, позволяет сделать следующие выводы:

  1. При использовании генетических алгоритмов для нахождения одновременно всех параметров изучаемого распределения погрешности оценок превышают 50 %, что является следствием высокой размерности решаемой задачи.
  2. Предложена методика нахождения параметров изучаемого двумодального распределения случайных последовательностей, основанная на совместном использовании аппроксимации Розенблатта – Парзена и ГА, и получено подтверждение ее работоспособности.
  3. Получены оценки точности нахождения параметров распределения, а также интегрального показателя, характеризующего в целом качество оценки плотности распределения случайной последовательности с изученным законом распределения.

Рецензенты:

Кубланов В.С., д.т.н., доцент, профессор кафедры радиоэлектроники информационных систем, ГАОУ ВПО «Уральский федеральный университет им. первого Президента России Б.Н. Ельцина», г. Екатеринбург;

Доросинский Л.Г., д.т.н., профессор, заведующий кафедрой информационных технологий, ГАОУ ВПО «Уральский федеральный университет им. первого Президента России Б.Н. Ельцина», г. Екатеринбург.

Работа поступила в редакцию 28.05.2014.