Дальше К следующему разделу Назад К предыдующему разделу Начало К началу разделу Конец К концу разделу Список К оглавлению

3.2. МЕТОДЫ САМООРГАНИЗАЦИИ ДЛЯ МОДЕЛИРОВАНИЯ ТРЕНДА ВРЕМЕННЫХ РЯДОВ

И, скользя тропой столетий,
Мимо жизни, мимо нас,
Ловко ловите вы в сети
Каждый выкованный час.

Валерий Брюсов

3.2.1. Построение уравнения регресcии с выбором информативных факторов

Выше рассматривались алгоритмы нахождения наилучшей функции F(t, a*) из конечного множества моделей-претендентов, каждая из которых имеет уже жестко заданную структуру. Другим вариантом структурной идентификации является построение модели априори неизвестной конфигурации из отдельных фрагментов-"кирпичиков" в ходе последовательной (шаговой) процедуры. Прежде чем затронуть теоретические аспекты сущности процесса самоорганизации, рассмотрим ставший уже стандартным алгоритм поиска наилучшего уравнения регрессии шаговым методом.

Пусть структура состоит из конечного множества элементов x = ( x1, x2, ..., xm ) - переменных величин, значение которых распределено во временном пространстве t. В многофакторном случае в качестве хi рассматриваются независимые переменные (и их функциональные преобразования), сопряженно связанные с откликом y. При анализе одномерных временных рядов вектор x можно заполнить различными функциями от времени. Для определенности рассмотрим следующий набор из 8 функций:

x = ( t, 1/t, t 0.5, sin t, cos t, arctg t, ln t, e t/100 ).

В соответствии со вкусами и интуицией исследователя это множество может быть произвольно расширено.

Построение регрессионной модели предполагает выбор ее оптимальной или субоптимальной структуры, т.е. селекцию информативных факторов из множества сгенерированных переменных. Иными словами, в уравнение регрессии включается только то минимальное подмножество входных переменных x, которое без существенной потери информации позволяет объяснить имеющийся статистический разброс. В качестве внешнего дополнения используется пороговое значение частного критерия Фишера, которое на каждом шаге включения очередного фактора в модель (или исключения его из модели) играет роль критерия регуляризации.

Метод "включений с исключениями", впервые описанный в работе М.А.Эфроимсона (Efroimson, 1960) и базирующийся на общей идее метода наименьших квадратов, позволяет с заданной надежностью выбрать из полной матрицы стандартизированных нормальных уравнений наилучшую невырожденную подматрицу, т.е. выбрать модель наиболее оптимальной структуры.

Сущность метода заключается в шаговом преобразовании значений Rij корреляционной матрицы, i = j = 1, ..., (m+1). Выбор первой переменной для включения в модель осуществляется по максимальной из статистик (Дрейпер, Смит, 1974):

V1 = R1q Rq1 / R11,

т.е. в модель вводится переменная x1, которая имеет наибольший по абсолютной величине коэффициент парной корреляции с откликом R1q. При этом процедура включения выполняется, если справедливо неравенство для последовательного F-критерия:

F1 = d V1 / (RqqV1) > F0 ,

где Fo - пороговое значение F-критерия, задаваемое исследователем, d - число степеней свободы, равное на первом шаге (m -1).

После включения переменной x1 в уравнение регрессии, элементы корреляционной матрицы пересчитываются по формулам прямого преобразования, чтобы исключить влияние уже учтенного фактора:

Описанная процедура повторяется многократно, пока статистическая значимость включения по F-критерию на каждом шаге превышает заданный порог F0.

После очередного расширения модели анализируется взаимная коррелированность отобранных переменных: если их взаимосвязь существенна, то лишние факторы, вносящие наименьший вклад, из модели исключаются. В этом случае исключению подлежат те переменные, для которых вычисленное значение частного F-критерия меньше Fо (при числе степеней свободы d = m - g - 1, где g - текущее число факторов, вошедших в модель).

Вычисления прекращаются, если не осталось ни одной переменной, для которой вычисленное значение последовательного F-критерия превысило бы заданный порог.

Использование шаговой процедуры на примере временного ряда с откликом NH4+ позволило выделить три следующие модели-претендента:

  • аддитивная модель, полученная в пространстве из 8 исходных факторов:

Y(t) = 30.58 + 85.92 e t/100 - 16.63 t0.5 + 10.22 cos t ,

имеющая cтандартное отклонение для остатков d = 69.24;

Y(t) = 536.9 - 150.8 (e t/100 )2 + 153 (ln t)2 + 268.2 ln t e t/100 - 379.1 t0.5 arctg t ,

(d = 67.34 , коэффициент множественной корреляции R = 0.548, достоверность уравнения регрессии по критерию Фишера F = 14.1, график функции представлен на рис. 3.6);

ln Y(t) = 4.2 + 0.096 (e t/100 )2 - 0.139 ln t.

Во всех случаях использовалось пороговое значение F-критерия Fо = 1.5.

Метод Эфроимсона является не единственной шаговой процедурой регрессионного анализа. Например, в известном пакете научных программ SSP фирмы IBM реализован сокращенный метод включений Дулитла, не реализующий исключение скоррелированных пар признаков и использующий для селекции факторов отношение ковариаций к дисперсии отклика.

 

Дальше К следующему разделу Назад К предыдующему разделу Начало К началу разделу Конец К концу разделу Список К оглавлению