Дальше К следующему разделу Назад К предыдующему разделу Начало К началу разделу Конец К концу разделу Список К оглавлению

6.2. Нелинейность отношений и “уиттекеровские” колокола

Формулировка задачи

Пусть имеется ряд из m сопряженных наблюдений двух переменных X º (x1, ..., xm) и Y º (y1, ..., ym), причем предполагается, что хотя бы одна из этих переменных (или обе вместе) измерены в количественных шкалах: интервальной, абсолютной или шкале отношений.

В разделе 5.5 было приведено выражение для расчета коэффициента корреляции Пирсона rXY, который является мерой линейной связи между векторами X и Y. Однако в случае нелинейной зависимости между фактором и откликом значение rXY теряет свою достоверность и может дать ошибочное представление о тесноте связи. Классический пример – параболическая зависимость, для которой коэффициент линейной корреляции может быть близок к 0, как бы не были близки экспериментальные точки к расчетной кривой.

Необходимо в условиях предполагаемой нелинейности оценить наличие связи между X и Y, а также степень ее близости к линейной форме. Для этого определяются показатели, характеризующие концентрацию распределения (и, следовательно, тесноту связи) около кривых регрессии Y(x) и X(y).

Рекомендуемая литература: [Ван дер Варден, 1960; Смирнов, Дунин-Барковский, 1965; Плохинский, 1970; Батоян, 1983; Генкин, 1999; С.А. Прохоров, 2001б, 2002].

Математический лист

Определим метод расчета корреляционных отношений h 2y|x и h 2x|y, введенных К. Пирсоном и являющихся наиболее общими мерами оценки нелинейных связей.

Для вычисления h 2y|x разобьем весь диапазон изменения фактора X на k поддиапазонов (интервалов). Пусть теперь y1i, y2i, …, yni – ординаты всех тех точек, абсциссы которых принадлежат i-му интервалу (i = 1,2,…,k). Если mi – количество точек, попавших в i-й интервал, то среднее значение ординат точек, попавших в этот интервал, определяется как

, (6.15)

а общая средняя всех ординат – как

.(6.16)

Для нахождения меры нелинейной связи вычисляется также дисперсия всех ординат от общей средней (обычная дисперсия ординат)

(6.17)

и разброс интервальных средних (i = 1, 2, …, k) от общей средней:

.(6.18)

Последняя дисперсия тем меньше, чем хуже зависимость y от x, а в случае полного хаоса и . Квадрат корреляционного отношения h 2y|x определяется как отношение дисперсии интервальных средних к дисперсии всех ординат:

. (6.19)

Аналогично вычисляется квадрат корреляционного отношения x от y; при этом квантуется диапазон изменения признака y на оси ординат:

. (6.20)

Между h 2y|x и h 2x|y нет какой либо простой зависимости: Y может быть не скоррелирована с X и h 2y|x = 0, когда как другой показатель h 2x|y = 1 (пример – та же парабола, или колоколовидная кривая по Р. Уиттекеру [1980]). Если h 2y|x = h 2x|y = 1, то функциональная зависимость Y = f (X) обратима и Y представляет монотонную функцию от X.

Корреляционное отношение, как и коэффициент детерминации R2, всегда положительно и изменяется от 0 до 1. Заметим еще, что во всех случаях R2 < h 2y|x и R2 < h 2x|y, так что из равенства нулю любого их корреляционных отношений, коэффициент линейной корреляции rxy также равен 0.

Вернемся к уже обсуждавшейся проблеме: как оценить наличие связи и степень ее близости к линейной форме.

Ошибка коэффициента линейной корреляции определяется по формуле:

,(6.21)

где m – число сравниваемых реализаций пар признаков X и Y. Тогда достоверность отличия коэффициента корреляции от нуля определяется по критерию Стъюдента:

,(6.22)

где число степеней свободы n = N - 2 .

Ошибка квадрата корреляционного отношения задается следующей формулой:

,(6.23)

где k – число классов корреляционной решетки по соответствующему признаку.

Тогда критерий достоверности отличия корреляционных отношений h 2y|x и h 2x|y от нуля будет определяться с использованием критерия Фишера:

,(6.24)

где n 1 = k - 1, n 2 = m - k .

Критерий криволинейности связи Ф позволяет установить границу достоверного различия линейного коэффициента корреляции и корреляционного отношения и выносить решение о существовании сугубо нелинейной связи:

.(6.25)

Распределение этого критерия также в случае нулевой гипотезы асимптотически приближается к распределению Фишера F(n 1 = k - 1, n 2 = m - k), что позволяет статистически проверить предположение о линейности.

Таким образом, схема полного корреляционного анализа выглядит так: первоначально определяется коэффициент линейной корреляции rxy и его достоверность s r; далее – корреляционное отношение h 2y|x и его достоверность s h . Здесь возможны следующие варианты [Плохинский, 1970; Миркин, Розенберг, 1978]:

Другой способ оценки нелинейности взаимосвязи Y » f(X) заключается в проведении двух пересекающихся вспомогательных линий регрессии через точки, соответствующие интервальным средним (i = 1, 2, …, k) и (l = 1, 2, …, n). Угол q между этими прямыми определяется по формуле:

,(6.26)

где k1 = h 2y|x и k2 = 1/ h 2x|y – угловые коэффициенты обеих прямых. Величина этого угла близка к 0 при наличии линейной корреляции.

В предыдущем разделе отмечалось, что с точки зрения теоретико-информационного подхода измерение статистической связи между переменными есть измерение сопряженного разнообразия:

(U(X) – U(X|Y))/U(Y) ,(6.27)

где U(X) – неопределенность (или "энтропия") переменной X, рассматриваемой отдельно, т.е. без знания Y; U(X|Y) – неопределенность Y при знании X. Спецификация понятия “энтропия” в случае признаков, измеренных в интервальных и номинальных шкалах, наиболее явным образом связана с традиционными статистическими понятиями “дисперсии” и “вариации”. Учитывая, что при наблюдениях на уровне интервальной шкалы мы получаем информацию не только о целевой категории объекта по Y, но и количественно оцениваем его отличие от других объектов, естественно использовать следующие дефиниции неопределенностей:

(6.28)

и ,(6.29)

где – среднее значение варьируемой переменной для примеров, попавших в k-й класс, а – общая средняя всех измерений. Тогда нормированная мера связи (U(X) – U(X|Y))/U(Y) примет вид знакомого по (6.19) квадрата корреляционного отношения:

,(6.30)

которое, таким образом, является частной реализацией информационного подхода к построению мер связи:

Как и корреляционные отношения, с идеей анализа тенденций интервальных средних связан прямой градиентный анализ – один из широко используемых методов ординации растительности, уходящий корнями в труды Л.Г. Раменского начала ХХ века и получивший развитие в работах Р. Уиттекера и Дж. Кертиса [Whittaker, 1952; Curtis, 1959; цит. по: Миркин, Розенберг, 1978]. Количественный прямой градиентный R-анализ [McIntosh, 1973; Kershaw, 1974; Миркин, Наумова, 1983, 1998; Розенберг, 1984] складывается из следующих этапов:

c = å хi * рi , s 2 = å (хi - c )2 * рi,(6.31)

где хi – значение фактора Х для середины i-й градации; pi – доля площади под выровненной кривой распределения (криволинейной трапеции), приходящаяся на i-й интервал.

Положение средневзвешенной напряженности для данного вида на оси фактора Х будет свидетельствовать о "принадлежности" вида к минимальным или максимальным значениям исследуемого фактора, а величина дисперсии – о степени эвритопности (большая дисперсия) или стенотопности вида (маленькая дисперсия).

Результаты расчетов

Рассмотрим выборку сопряженных значений концентрации нитрат-ионов в воде CNO3 и индекса Шеннона H, состоящую из 68 измерений, и выполним полный корреляционный анализ.

Для расчета корреляционных отношений предварительно выполняется трудно формализуемая процедура выбора количества и граничных значений диапазонов, поскольку по эмпирическим соображениям в каждой ячейке совместной корреляционной решетки для двух показателей должно быть не менее 6-8 измерений.

Осуществим разбиение области варьирования переменных на интервалы, основываясь на классической стратегии их равной ширины в натуральной шкале. Если с индексом Шеннона все складывается относительно благополучно, то в случае с концентрацией нитратов, мы сталкиваемся с некоторым разочарованием: большинство гидрохимических показателей, как и подробно рассмотренные в разделе 5.1 гидробиологические показатели, характеризуются сильной асимметрией распределения. Поскольку в каждую клетку корреляционной решетки должно попасть хотя бы 1 значение (напомним, лучше – не менее 6), проводим логарифмирование значений CNO3 с добавлением "страховочной" единицы, что в значительной мере стабилизирует распределение – см. фиг. “а” и “б” на рис. 6.2. Но даже и после этого, достичь полного "заселения" решетки удается лишь "склеив" несколько крайних правых интервалов.

Расчет корреляционных отношений представлен в табл. 6.5.

Таблица 6.5

Расчет корреляционных отношений по выборке “индекс Шеннона (Н) – концентрация нитратов (CNO3), мг/л”

Интервалы С = ln(CNO3 + 1) ,
общее среднее = 0.791

Интервалы Н,
общее среднее = 2.098

Диапазоны

Измерений

Групповые средние

Диапазоны

Измерений

Групповые средние

C

H

H

C

До 0.5

23

0.177

2.363

До 1

8

0.584

0.965

0.5 - 1

23

0.718

2.121

1 - 2

20

1.576

0.767

1 -1.5

12

1.246

1.688

2 - 3

31

2.392

0.847

1.5 - 2.8

10

1.829

1.930

3 - 4.19

9

3.594

0.504

Корреляционное отношение h 2y|x

8.53%

Корреляционное отношение h 2x|y

7.89%

Статистика Фишера для h 2y|x = 0

1.99

Статистика Фишера для h 2x|y = 0

1.83

Критерий криволинейности связи Ф

1.58

Критерий криволинейности связи Ф

1.35

 

Классический линейный регрессионный анализ приводит к следующему уравнению (фиг. “в” на рис. 6.2):

H = 2.329 - 0.292 ln(CNO3 + 1)

при коэффициенте детерминации R2 = 4.017% и статистике Фишера F(1,66) = 2.76 [р = 0.101].

Рис. 6.2. Графики распределений и регрессионных зависимостей индекса Шеннона от концентрации нитратов

Вряд ли проведенный анализ корреляционных отношений добавил что-нибудь существенное к выводам регрессионного анализа о влиянии концентрации нитратов на индекс Шеннона. С одной стороны, на 5% уровне надежности, как уравнение регрессии, так и корреляционные отношения являются незначимыми, да и угол q = 58о между прямым Y(x) и X(y) на фиг. “г” трудно назвать небольшим. С другой стороны, при 10% пороге надежности, который не является слишком рискованным для биологических исследований, утверждения о линейной форме зависимости между этими переменными становятся непротиворечивыми, а, используя лексику градиентного анализа можно сказать, что “средневзвешенная напряженность показателя на оси градиента имеет устойчивую обратно пропорциональную тенденцию для индекса Шеннона”.

В качестве примера использования градиентного анализа рассмотрим влияние такого важнейшего показателя загрязнения воды, как степень насыщения кислородом в придонном слое (СО2) на индекс Шеннона H, общую численность видов хищников-хватателей зообентоса (Nh), общую биомассу видов Chironomidae (Bchi) и долю хищников этого рода (Bh/Bchi).

Отличительной особенностью распределения содержания кислорода является сильное сгущение точек измерений относительно среднего значения при наличии мощных "хвостов". Как было показано в разделе 5.5, это делает неустойчивыми большинство уравнений регрессионного анализа. Для выделения границ интервалов воспользуемся концепцией равной заселенности и представим результаты разбиения в табл. 6.6.

Таблица 6.6

Распределение по диапазонам значений содержания растворенного кислорода, % от степени насыщения

№№

интервалов

Количество

точек

Минимум

Максимум

Среднее

1

52

6.5

84

70.68

2

49

85

93

90.2

3

53

94

98

95.99

4

50

99

103

100.42

5

50

105

116

111.6

6

52

118

184

134.90

Всего

306

100.65

Графики распределения средних интервальных значений анализируемых показателей по оси градиента и оценка силы влияния фактора по статистике Фишера приведены на рис. 6.3.

а) суммарная биомасса Chironomidae Bchi
(F = 2.14, p = 0.06)

б) доля видов хищников в биомассе Chironomidae
Bh/Bch (F = 1.83, p = 0.106)

в) суммарная численность хищников Nh
(F = 2.54, p = 0.0286)

г) индекс Шеннона H
(F = 1.55, p = 0.175)

Рис. 6.3. Изменение некоторых гидробиологических показателей от содержания растворенного кислорода (по оси абцисс в %); пунктирная линия – до выравнивания, сплошная – после.

По результатам расчетов можно отметить четко выраженный "экологический оптимум" для абсолютных значений численности хищников Nh, биомассы хирономид Bchi и, в меньшей мере, индекса Шеннона Н в области содержания растворенного кислорода СО2 = 100%. В то же время, доля хищных видов Bh/Bch в общей массе хирономидофауны заметно снижается по мере обогащения воды кислородом.

Приемы градиентного анализа могут быть использованы также в том случае, когда отклик Y измерен в порядковой шкале, состоящей из альтернатив (1 – признак присутствует и 0 – в противном случае). Средние интервальные значения отклика заменяются при этом распределением частот встречаемости по оси градиента фактора.

Основные теоретические изыскания градиентного анализа, отличающие его от стандартных процедур дисперсионного анализа, направлены на борьбу с "многовершинностью" частных средних, которая противоречит представлениям о существовании только одного экологического оптимума распределения показателя по градиенту среды.

Одним из простейших способов, позволяющих элиминировать случайные колебания эмпирического тренда и получить плавную "колоколообразную" теоретическую кривую, является метод выравнивания скользящей средней. Предлагается [Розенберг, 1984] определять новые выравненные интервальные средние Xi по следующим формулам:

Xi = (Xi-1 + Xi + Xi+1)/3 для k > i > 1 и

X1 = (2X1 + X2)/3 , Xk = (Xk-1 + 2Xk)/3 для концевых точек,

где Xi – частные средние исходного дисперсионного комплекса, i = 1,2,…,k. Выравнивание способом скользящей средней рекомендуется повторять многократно, до тех пор, пока кривая частных средних по градациям фактора становится достоверно одновершинной, что проверяется сравнением средних по критерию Стьюдента.

Изложенная методика не является "истиной в последней инстанции" (как, впрочем, и любой эмпирико-статистический приём) и требует ряда уточнений и пояснений.

  1. Поскольку исследователь, как правило, имеет дело с некоторой ограниченной областью варьирования переменных и выделить в чистом виде роль конкретного фактора среды в ходе наблюдений бывает крайне трудно, "колоколообразная" кривая взаимного влияния в гидроэкологии является скорее исключением, чем правилом (нам пришлось немало потрудиться, чтобы найти подходящий пример). Можно постулировать скорее прямую или обратную линейную зависимость, либо различные фрагменты S-образной кривой, когда в интервалах слева (или справа) влияние фактора вообще отсутствует.
  2. Любая, а, тем более, многократная "стрижка неровностей" может утопить в "болоте" усреднения все специфичные "трещинки", которые могут иметь глубокий содержательный смысл. Например, "вздернутые" края эмпирического распределения биомассы хирономид (рис. 6.3 “а”) в 1 и 6 интервалах (при небольшом разнообразии по Шеннону) могут быть связаны с закономерным доминированием видов, развивающихся в условиях "нестандартных" биотопов. После сглаживания скользящими средними этот эффект теряется.
  3. Вряд ли является плодотворной идея сравнивать два эмпирических распределения по отдельным парам точек с использованием критерия Стьюдента. Эта процедура традиционно поручается в статистике критериям Колмогорова-Смирнова и другим критериям согласия, описанным в разделе 5.1.
  4. Определенные сомнения вызывает и правомочность оценки статистической значимости влияния фактора по Фишеру с использованием выравненных значений интервальных средних. Любые суммы квадратов отклонений от некоторых субъективных "средних", являются смещенными оценками, поэтому в рассчитанных статистиках исследователь получает искусственно завышенную силу влияния фактора.

Однако, несмотря на достаточно острую критику отдельных работ в области прямого градиентного анализа [Василевич, 1972], он является, безусловно, одним из наиболее эффективных методов ординации, о чем свидетельствуют представленные примеры.

Дальше К следующему разделу Назад К предыдующему разделу Начало К началу разделу Конец К концу разделу Список К оглавлению