Scientific journal
Fundamental research
ISSN 1812-7339
"Перечень" ВАК
ИФ РИНЦ = 1,749

MODIFIED PEARSON CRITERION IN ECONOMIC RESEARCH

Ryazanskiy V.P. 1
1 LOD «Scientific-Technical Center»
Criterion consent ?2 statistical criteria most often used in economic and sociological research. Widespread cause incorrectness is its application in some cases. We have attempted to focus on the specifics of the use of ?2 test. Working with them requires the use of software, for example, specialized packages Statgraphics, STATISTICA or MATLAB. The normal law of probability distribution is most prevalent in the practice of data processing tasks. Most of the application of methods of mathematical statistics is based on the assumption of a normal probability distribution of random variables studied. The wide spread of the distribution has necessitated the development of special criteria for the consent of the empirical distributions to normal. There is a modification of the consent of the general criteria and the criteria set up specifically to check normality. The name is due to the name of the criterion of continuous distribution, which converges statistics on the distribution criteria. In the case where there are only two mutually exclusive hypotheses, say that there was an error of the first kind, if the main criterion of the hypothesis is rejected, then it is true. The probability of error of the first kind is called the level of significance criterion.
criterion
distribution
Pearson
hypothesis
probability
1. Ahrjapov O.S. Proverka normalnosti raspredelenija jempiricheskih dannyh po kriteriju Pirsona // V sbornike: V mire nauchnyh otkrytij Materialy IV Vserossijskoj studencheskoj nauchnoj konferencii (s mezhdunarodnym uchastiem). 2015. рр. 79–81.
2. Zhunisbekov S., Dzhonson A., Shevcov A.N. O nekotoryh oblakah tochek hi-kvadrat kriterija Pirsona // Theoretical & Applied Science. 2013. no. 8 (4). рр. 1–23.
3. Kolgatin A.G. Informacionnye tehnologii v nauchno-pedagogicheskih issledovanijah // Upravljajushhie sistemy i mashiny. 2015. no. 1 (255). рр. 66–72.
4. Pilipenko A.N., Litvinenko N.I. Vlijanie institucionalnoj sredy na razvitie socialno-jekonomicheskih sistem // V sbornike: Sovremennye tendencii socialnogo, jekonomicheskogo i pravovogo razvitija stran Evrazii: sbornik nauchnyh trudov. 2016. рр. 390–399.
5. Chernicyna R.N. Analiz rezultatov testirovanija s primeneniem metodov matematicheskoj statistiki // Vestnik Tomskogo gosudarstvennogo pedagogicheskogo universiteta. 2016. no. 4 (169). рр. 46–52.

Критерий согласия Пирсона (χ2) применяют для проверки гипотезы о соответствии эмпирического распределения предполагаемому теоретическому распределению F(x) при большом объеме выборки (n ≥ 100). Критерий применим для любых видов функции F(x), даже при неизвестных значениях их параметров, что обычно имеет место при анализе результатов механических испытаний. В этом заключается его универсальность.

Использование критерия χ2 предусматривает разбиение размаха варьирования выборки на интервалы и определения числа наблюдений (частоты) nj для каждого из e интервалов. Для удобства оценок параметров распределения интервалы выбирают одинаковой длины.

Число интервалов зависит от объема выборки. Обычно принимают: при n = 100 e = 10–15, при n = 200 e = 15–20, при n = 400 e = 25–30, при n = 1000 e = 35–40.

Интервалы, содержащие менее пяти наблюдений, объединяют с соседними. Однако, если число таких интервалов составляет менее 20 % от их общего количества, допускаются интервалы с частотой nj ≥ 2.

Предлагаемая модификация критерия Пирсона [1, с. 80] позволяет проверять гипотезу о предполагаемом распределении генеральной совокупности [5, с. 51], обладающей функцией распределения

ryazan01.wmf

где ryazan02.wmf – известный вектор параметров распределения [2, с. 22].

Разобьем носитель случайной величины на m равновероятных интервалов следующим образом:

1 /m = F(bj) – F(aj) = p; F(a1) = 0;

F(bj) = j/m, j = 1, …, m.

Имеется выборка x1, …, xn из генеральной совокупности, с указанным выше распределением [2, с. 22].

Рассмотрим произвольный интервал (aj, bj) на носителе случайной величины [3, с. 68]. Любое наблюдение из выборки с вероятностью p = 1/m попадает в указанный интервал и с дополнительной вероятностью, равной q = 1 – p, не попадает в него. Для случайной величины vi – числа наблюдений из выборки, попавших в указанный интервал, получаем простую схему Бернулли с вероятностью успеха при одном испытании p и числом испытаний n. Таким образом, получаем m простых схем Бернулли при одинаковых вероятностях успеха p и числа испытаний n [4, с. 392].

В силу локальной теоремы Муавра – Лапласа случайные величины ryazan03.wmf j = 1, …, m имеют распределение близкое к стандартному нормальному. Предлагаемая модификация критерия Пирсона заключается в выборе критической статистики в следующем виде:

ryazan04.wmf

Выбор критической статистики в таком виде обусловлен более устойчивыми ее свойствами. Для применения данного критерия необходимо найти функцию распределения статистики Λ, то есть функцию распределения случайной величины Ym, где

ryazan05.wmf ryazan06.wmf j = 1, …, m.

Запишем функцию распределения случайной величины ryazan07.wmf по определению:

Fz(x) = P(Z < x) = P(–x < Zj < x) = 2Ф(x),

где ryazan08.wmf

После дифференцирования левой и правой частей получим выражение для функции плотности Z:

ryazan09.wmf

при x > 0 и 0 иначе.

Для дальнейших рассуждений нам потребуется характеристическая функция Z, которая есть по определению:

ryazan10.wmf

Продифференцируем левую и правую части равенства по t:

ryazan11.wmf

Далее, интегрируя по частям, приходим к следующей задаче Коши:

ryazan12.wmf

при начальных условиях f(0) = 1.

Как нетрудно проверить, решение этого обыкновенного дифференциального уравнения есть:

ryazan13.wmf

где ryazan14.wmf

Интересно отметить, что полученная функция выражается через функцию Фаддеева:

ryazan15.wmf

где ryazan16.wmf – есть функция Фаддеева. Тогда характеристическая функция случайной величины

ryazan17.wmf

Для нахождения центральных моментов случайной величины Ym вычислим производные от ее характеристической функции в точке t = 0:

ryazan18.wmf

Отсюда получаем

ryazan19.wmf

Для нахождения второго центрального момента вычислим вторую производную от характеристической функции в точке t = 0:

ryazan20.wmf,

и тогда

ryazan21.wmf

Таким образом, дисперсия

ryazan22.wmf

Дисперсия y Xи-квадрат распределения такова

ryazan23.wmf

Отношение дисперсий очень красноречиво:

ryazan24.wmf

Вернемся теперь к вычислению функции плотности распределения pY(x) = pm(x) через её характеристическую функцию:

ryazan25.wmf

Дифференцируя обе части, получаем следующее:

ryazan26.wmf

После интегрирования по частям имеем

ryazan27.wmf (1)

Что приводит к следующей задаче Коши:

ryazan28.wmf (2)

pm(0) = 0.

Положим m = 2, получим уравнение для функции плотности распределения такой случайной величины:

ryazan29.wmf ryazan30.wmf

где ryazan31.wmf

Решая эту задачу Коши, получаем

ryazan32.wmf x ≥ 0; p2(x) = 0, x < 0.

Решение при m > 2 в явном виде найти сложнее. Поэтому удобнее воспользоваться численными методами. Для этого запишем систему обыкновенных дифференциальных уравнений в векторном виде:

ryazan33.wmf ryazan34.wmf ryazan35.wmf ryazan36.wmf

где ryazan37.wmf

Здесь A – квадратная матрица размером (m – 1)×(m – 1)

ryazan38.wmf

На рис. 1 изображены решения этой системы дифференциальных уравнений, то есть функций плотности распределения случайной величины Ym при m = 2, …, 9. Как известно, для суммы независимых случайных величин есть и другой способ найти функцию плотности распределения через свертку. Для случая m = 2 оказалось возможным непосредственно найти решение

ryazan39.wmf

В случае m > 2 численными методами получено решение полностью совпадающее с решениями системы (2). Необходимо отметить, что численное решение системы (2) многократно эффективнее по времени вычисления по сравнению с нахождением функций плотности через свертку.

Рассмотрим использование данной критической статистики для проверки гипотезы о том, что генеральная совокупность имеет функцию распределения ryazan40.wmf Практически для всех известных распределений путем моделирования выборки и вычисления критической статистики была построена её (статистики) эмпирическая функция распределения. На том же рис. 2 нанесен график функции распределения, полученный как решение системы (2).

pic_68.tif

Рис. 1. Плотность распределения статистики Λ

pic_69.tif

Рис. 2. График функции распределения статистики Λ

Таким образом, для случайной величины Ym,

ryazan41.wmf ryazan42.wmf j = 1, …, m

получено однопараметрическое семейство распределений со следующими характеристиками:

ryazan43.wmf x ≥ 0,

p2(x), …, pm(x) – решение системы (2);

ryazan44.wmf – первый центральный момент;

ryazan45.wmf – второй центральный момент;

ryazan46.wmf – дисперсия;

ryazan47.wmf – характеристическая функция;

ryazan48.wmf

где ryazan49.wmf – функция Фаддеева.