Scientific journal
Fundamental research
ISSN 1812-7339
"Перечень" ВАК
ИФ РИНЦ = 1,674

Романовская Т.С.

Рассмотрены вопросы определения функции зависимости многомерного признакового пространства при решении задач классификации. Вводится понятие эталонного состояния признака, в котором он не поддается влиянию других признаков. Предлагается процедура определения функции зависимости признаков, имеющих эталонное состояние.

В задачах многомерной классификации объектов признаковое пространство может быть достаточно сложным для его использования без предварительной обработки. Такая сложность, как правило, обусловлена тем, что признаки измерены в разных шкалах, часть признаков неинформативна или признаки зависимы, т.е. для признаков f существует функция f, такая что:

f, f; f,

где М - размерность признакового пространства.

Задача классификации еще более усложнится, если предположить, что часть признаков характеризуется эталонным состоянием, в котором они условно не влияют друг на друга. То есть существует порог влияния группы признаков f на признак xi такой что f, причем признаки f могут принимать значение отличное от Null.

Таким образом, каждый признак объекта, зависящий от других признаков, имеет матрицу состояний f, где f - эталонное состояние (минимальное значение), определяемое отсутствием влияния на признак других признаков; f- функция зависимости признака; f- максимальное значение признака, которое можно достичь путем изменения других признаков. Причем в эталонном состоянии признак может принимать сколько угодно разных значений. Функция зависимости может быть получена двумя способами: 1. Задана экспертно; 2. Получена с помощью аппарата математической статистики на основе ряда наблюдений.

В этом случае признаковое пространство f состоит их трех подпространств: f - подпространство признаков, независимых от других признаков;  f- подпространство признаков, зависимых от других, не имеющих эталонного состояния в котором они условно не зависят от других признаков или не оказывают влияния на другие признаки; f - подпространство признаков, зависимых от других, имеющих эталонное состояние в котором они условно не зависят от других признаков или не оказывают влияния на другие признаки, где f, М - размерность признакового пространства.

Тогда полное признаковое пространство определяется объединением своих подпространств:

f

Функция зависимости, в общем случае, может быть построена на основе множественной регрессии. Однако характер зависимости в каждом конкретном случае должен определяться исходя из специфики задачи.

Рассмотрим случай линейной регрессии.

1. Подпространство признаков, зависимых от других, не имеющих эталонного состояния, в котором они условно не зависят от других признаков или не оказывают влияния на другие признаки.

Функция, описывающая зависимость признака xi от набора признаков f выглядит следующим образом:

f (1)

Для определения параметров уравнения множественной регрессии перейдем к уравнению регрессии в стандартизированном масштабе:

f,           (2)

где f, стандартизованные переменные:

f,     f

где f - среднее значение признака, f - среднеквадратическое отклонение, для которых среднее значение равно нулю: f, а среднее квадратическое отклонение равно единице: f; β - стандартизированные коэффициенты.

Оценить параметры стандартизированного уравнения регрессии можно с помощью метода наименьших квадратов (НМК). При его применении строится система нормальных уравнений вида:

f

где r - линейные коэффициенты парной корреляции.

Система уравнений решается с помощью метода определителей:

f

где f - определитель системы, f - частные определители, получаемые путем замены соответствующего столбца матрицы определителя системы данными левой части системы.

f (4)

Вычисленные таким образом коэффициенты регрессии f можно сравнить друг с другом и определить степень влияния отдельных признаков на зависимый параметр.

Далее переход от уравнения в стандартизированном масштабе к уравнению в натуральном масштабе осуществляется путем вычисления коэффициентов fпо следующей формуле.

f, (5)

где f; f.

Параметр а определяется исходя из следующего соотношения:

f

2. Подпространство признаков, зависимых от других, имеющих эталонное состояние в котором они условно не зависят от других признаков или не оказывают влияния на другие признаки.

Функция, описывающая зависимость признака xi от набора признаков f выглядит, как и в предыдущем случае, с некоторыми дополнениями:

f,

где f если f и f если  f; f; f- порог влияния признака f на признак xi.

Решение линейного уравнения множественной регрессии происходит аналогичным способом, путем преобразования его к стандартизированному виду, применению метода наименьших квадратов и последующим нахождением коэффициентов нормального уравнения.

Таким образом, используя метод стандартизированных уравнений множественной регрессии можно выбрать оптимальный вариант факторов, включенных в модель, поскольку факторы с наименьшим значением βi имеют наименьшую степень влияния на зависимый параметр и могут быть исключены.

СПИСОК ЛИТЕРАТУРЫ

  1. Елисеева И.И., Курышева С.В., Костеева Т.В. Эконометрика - М.: Финансы и статистика, 2003.
  2. Елисеева И.И, Юзбашев М.М. Общая теория статистики - М.: Финансы и статистика, 2001.
  3. Загоруйко Н.Г. Прикладные методы анализа данных и знаний.- Новосибирск: Институт математики, 1999.