Scientific journal
Fundamental research
ISSN 1812-7339
"Перечень" ВАК
ИФ РИНЦ = 1,674

WAY OF SPECIFICATION OF HIERARCHICAL UNIFORM MATHEMATICAL MODEL OF STATISTICAL TYPE

Noskov S.I. 1 Toropov V.D. 2 Noskova N.S. 3
1 FGBOU VPO «Irkutsk State University of Means of Communication»
2 FGBOU VPO «Baikal state university of economy and right»
3 Tianjin university of science and technology
Often in practice, simulation researchers have to deal with the situation when the object of analysis (system) in a natural way «breaks up» into components (subsystems), whose behavior is also of interest. However, following the canons of system analysis, as a rule, the original system is formalized methods of mathematical modeling «better», more appropriately than its constituent parts. Moreover, one of the principles of system analysis States: «the elements that constitute the system, and the system breaks down into elements». This means that the larger the object of study, the more accurate model can be built, inserzione will be this object, the stronger the laws governing its functioning. A small, somewhat exaggerated, but illustrative example: the behavior of the reservoir «model» is much simpler than the behavior of individual molecules.
modeling
system analysis
regression analysis
Fischer’s criterion
Darbin-Watson’s criterion
approximation error
1. Bazilevskij M.P. Noskov S.I. Algoritm formirovanija mnozhestva regressionnyh modelej s pomoshhju preobrazovanija zavisimoj peremennoj. Mezhdunarodnyj zhurnal prikladnyh i fundamentalnyh issledovanij no. 3, 2010. рр. 159–160.
2. Bazilevskij M.P. Noskov S.I. Algoritm postroenija linejno-multiplikativnoj regressii Sovremennye tehnologii. Sistemnyj analiz, Modelirovanie no. 1, 2011. рр. 88–92.
3. Bazilevskij M.P. Noskov S.I. Identifikacija neizvestnyh parametrov linejno-multiplikativnoj regressii. Sovremennye naukoemkie tehnologii no. 3, 2012. рр. 14–18.
4. Lakeev A.V. Noskov S.I. Metod naimenshih modulej dlja linejnoj regressii: chislo nulevyh oshibok approksimacii. Sovremennye tehnologii. Sistemnyj analiz, Modelirovanie no. 2, 2012. рр. 48–50.
5. Matrosov V.M., Golovchenko V.B., Noskov S.I. Modelirovanie i prognozirovanie pokazatelej socialno-jekonomicheskogo razvitija oblasti. Novosibirsk: Nauka, 1991. рр. 144.
6. Noskov S.I. Kriterij «soglasovannost povedenija» v regressionnom analize. Sovremennye tehnologii. Sistemnyj analiz, Modelirovanie no. 1, 2013. рр. 107–111.
7. Noskov S.I. Ocenivanie parametrov approksimirujushhej funkcii s postojannymi proporcijami. Sovremennye tehnologii. Sistemnyj analiz, Modelirovanie no. 2, 2013. рр. 135–136.
8. Noskov S.I. Tehnologija modelirovanija obektov s nestabilnym funkcionirovaniem i neopredelennostju v dannyh. Irkutsk: Oblinformpechat, 1996. рр. 320.
9. Protopopov V.A. Noskov S.I. Ocenka urovnja ujazvimosti obektov transportnoj infrastruktury: formalizovannyj podhod. Sovremennye tehnologii. Sistemnyj analiz, Modelirovanie no. 4 (32), 2011. рр. 241–244.
10. A Description of the set of solutions of a linear equation with interval defined operator and right-hand side / A.V. Lakeev, S.I. Noskov / Doklad Mathematics, T.47, no. 3, 1993.
11. Approximate linear algebra is intractable / V. Kreinovich, A.V. Lakeev, S.I. Noskov / Linear algebra and its Applications, T.232, no. 1–3, 1996. рр. 45–54.
12. Description of the solution set to linear equation with the intervally defined operator and right-hand side /A.V. Lakeev, S.I. Noskov / Doklad Mathematics, t.330, no. 4, 1993. рр. 430.

В практике моделирования исследователям часто приходится сталкиваться с ситуацией, когда объект анализа (система) естественным образом «распадается» на составляющие (подсистемы), поведение которых также представляет интерес.

При этом, следуя канонам системного анализа, как правило, исходная система формализуется методами математического моделирования «лучше», адекватнее, чем её составные части. Более того, один из принципов системного анализа гласит: «Не элементы составляют систему, а система распадается на элементы». Это означает, что чем крупнее объект исследования, тем более точную модель можно построить, чем инерционнее будет этот объект, тем устойчивее будут закономерности его функционирования.

Небольшой, несколько утрированный, но показательный пример: поведение водоема «смоделировать» гораздо проще, чем поведение отдельной молекулы.

Итак, пусть необходимо построить иерархическую (для определенности, двухуровневую) одномерную статистическую модель, описывающую переменную z регрессией

noskov01.wmf (1)

где k – номер наблюдения обрабатываемой выборки длины n; f – вещественная аппроксимирующая функция; α – вектор оцениваемых параметров; xk – вектор экзогенных переменных модели; εk – ошибки аппроксимации. Пусть исследуемый объект (допустим, каскад электростанций; z – объем произведенной на нем электроэнергии) состоит из r составных частей (отдельных электростанций), для каждой из которых построена своя модель:

noskov02.wmf noskov03.wmf (2)

Обозначения здесь очевидны.

При оценивании параметров регрессионного уравнения (2) и оценки его качества можно использовать, в частности, следующие работы [1–5, 7, 8, 10].

На предыстории процесса выполняется естественное равенство

noskov04.wmf noskov05.wmf (3)

Как правило, одно из основных направлений использования моделей (1), (2) – прогнозирование с их помощью будущего состояния объектов.

Обозначим через noskov06.wmf k > n прогнозные значения соответствующих переменных. При этом в общем случае равенство (3) может нарушаться, т.е.

noskov07.wmf k > n.

Возникает вопрос: что делать с образующимся дисбалансом

noskov08.wmf

Для его решения воспользуемся идеей, высказанной в [5], а именно: дисбаланс Δzk должен быть распределен между r объектами обратно пропорционально точности соответствующих моделей. То есть чем более адекватна j-я модель (2), тем меньшая часть Δzk должна быть направлена на корректировку значения noskov09.wmf.

К настоящему времени в регрессионном анализе разработан широкий спектр критериев адекватности статистических моделей (достаточно представительный их перечень приведен в [8]). Это, в частности, коэффициент множественной детерминации, критерии Фишера, Стьюдента и Дарбина – Уотсона, средние относительные ошибки аппроксимации и прогноза, критерии смещения и согласованности поведения и другие. Приведем эти критерии более подробно, используя, в частности, работы [11–14]. При этом во избежание путаницы зависимую переменную будем обозначать через y.

а) критерий множественной детерминации R2, выражающий степень согласованности вычисленных и фактических значений зависимой переменной, поскольку он представляет собой квадрат коэффициента корреляции между соответствующими векторами. Эквивалентная, по существу, трактовка R2 такова: он показывает, какая доля дисперсии у объясняется регрессией (1).

Формула расчета R2 имеет вид ( в случае присутствия в (1) свободного члена):

noskov10.wmf

или, что то же

noskov11.wmf

где noskov12.wmf, noskov13.wmf – вычисленные значения зависимой переменной, noskov14.wmf – среднее значение у. Легко видеть, что всегда R2 ∈ [0, 1].

Другая, формально более аргументированная интерпретация критерия множественной детерминации состоит в том [8], что он показывает, насколько регрессия (1) лучше модели среднего. Поэтому при описании динамических процессов с помощью регрессии, содержащей трендовую составляющую

noskov15.wmf

для того, чтобы сравнить, насколько такая регрессия лучше модели простого тренда noskov16.wmf, в [8] предлагается использовать в качестве аналога R2 показатель noskov17.wmf, рассчитываемый по формуле

noskov18.wmf

Существенным недостатком R2 является то, что он не уменьшает своих значений при добавлении в (1) новых переменных. Поэтому всегда можно сделать R2 как угодно близким к единице путем добавления в регрессию дополнительных независимых переменных. Для элиминирования этого недостатка часто вместо R2 используют его скорректированное на число степеней свободы значение noskov19.wmf:

noskov20.wmf

б) величина остаточной дисперсии s2, определяющая меру вариации выходного показателя относительно регрессии:

noskov21.wmf

Для придания остаточной дисперсии относительного характера иногда пользуются следующей формулой:

noskov22.wmf

в) F-критерий Фишера, показывающий отношение дисперсии фактических значений у к остаточной дисперсии. В зависимости от существующих вариантов интерпретации этого критерия он указывает на: отсутствие (или наличие) линейной связи зависимой переменной с одной из независимых; значимость критерия R2; степень линейности уравнения. F-критерий рассчитывают по формуле

noskov23.wmf

F-критерий имеет статистический характер и требует использования соответствующих таблиц F-распределения. При превышении значения F над табличным первое считается удовлетворительным. В любом случае значение F-критерия тем лучше, чем оно выше;

г) критерий Дарбина –Уотсона d, указывающий на наличие или отсутствие корреляции (положительной или отрицательной) остатков ε:

noskov24.wmf

Критерий d принимает значения на отрезке [0, 4] и также требует привлечения соответствующих статистических таблиц. Идеальное его значение, указывающее на отсутствие автокорреляции остатков, равно двум.

д) t-критерий, показывающий, во сколько раз оцененное значение каждого параметра регрессии (1) превышает его стандартную ошибку. Этот критерий служит мерой вариации каждого параметра и так же, как критерия f и d, требует привлечения соответствующих таблиц распределения, в данном случае Стьюдента. Формула для его расчета имеет вид

noskov25.wmf noskov26.wmf

где noskov27.wmf – оцененное значение i-го параметра регрессии (1), noskov28.wmf – i-й диагональный элемент матрицы noskov29.wmf.

Удовлетворительным считается значение t-критерия, превышающее единицу. В противном случае соответствующий регрессор считается незначимым;

е) cредняя относительная ошибка аппроксимации E. Это обычно применяемый в инженерных расчетах показатель, вычисляемый по формуле

noskov30.wmf

ж) cредняя относительная ошибка прогноза noskov31.wmf, рассчитанная по экзаменующей выборке следующим образом.

Вся выборка делится на две части – большую (обучающую) с номерами наблюдений 1, 2, …, τ и меньшую (экзаменующую) с номерами τ+1, τ+2,…,n. По наблюдениям обучающей выборки определяются параметры регрессии (1) â, после чего значение noskov32.wmf вычисляется по формуле

noskov33.wmf

Данный критерий служит оценкой прогностических возможностей построенного уравнения. Естественно, после их проверки параметры регрессии пересчитываются по полной выборке;

з) критерий смещения nсм, представляющий собой меру «стабильности» оценок параметров относительно различных участков выборки.

Для расчета этого критерия вся выборка делится примерно пополам, и для каждой части определяются оценки параметров noskov34.wmf и noskov35.wmf.

Тогда значение nсм принимает вид

noskov36.wmf

Из этой формулы следует, что значение критерия nсм чем меньше, тем лучше.

Необходимо отметить, что обычно в литературе использование приведенных критериев носит традиционно пассивный характер, выражающийся в неформальном доказательстве удовлетворительности качества построенной модели в случае попадания значений критериев в требуемые интервалы.

Пусть в качестве основного нами выбран критерий «средняя относительная ошибка аппроксимации». Рассчитаем его значение для каждой из r моделей (2):

noskov37.wmf

Вычислим корректирующие элементы по очевидной формуле:

noskov38.wmf

После этого прогнозные значения noskov39.wmf уточняются следующим образом:

noskov40.wmf k > n.

В своих последующих работах авторы намерены продолжить развивать предлагаемый здесь подход.

Рецензенты:

Кузьмин О.В., д.ф.-м.н., профессор, заведующий кафедрой теории вероятностей и дискретной математики, Иркутский государственный университет, г. Иркутск;

Лакеев А.В., д.ф.-м.н., ведущий научный сотрудник, Институт динамики систем и теории управления СО РАН, г. Иркутск.

Работа поступила в редакцию 18.03.2015.