Дальше К следующему разделу Назад К предыдующему разделу Начало К началу разделу Конец К концу разделу Список К оглавлению

7.2. Задача о статистической связи: корреляционный анализ признаков и объектов

Формулировка задачи

Пусть имеется матрица наблюдений X размерностью n´m, строки i которой соответствуют гидробиологическим пробам, i = 1,2,…,n, а столбцы j содержат конкретные гидробиологические показатели, j = 1,2,…,m, полученные в точке наблюдения i и выраженые в шкале произвольного характера.

Параметры многомерного объекта чаще всего связаны между собой, причем эта связь более или менее тесная. В большинстве случаев она проявляется в виде тенденции, т.е. равномерному увеличению одного из параметров в среднем будет сопутствовать пропорциональное увеличение или уменьшение другого. Необходимо количественно оценить меру стохастической связи между признаками, т.е. уровень их взаимной корреляции.

Рекомендуемая литература: [Василевич, 1969; Кэндалл, Стьюарт, 1973; Миркин, Розенберг, 1978; Плохинский, 1982; Зайцев, 1984].

Математический лист

Корреляционным анализом называется совокупность методов обнаружения корреляционной зависимости между случайными величинами или признаками. В разделе 5.5 нами уже приводилось выражение для коэффициента парной корреляции Пирсона rxy как меры детерминации y и х. В разделе 6.2 коэффициент Пирсона рассматривался в контексте проблемы нелинейности и в сравнении с другими статистиками – корреляционными отношениями. В настоящем разделе осуществим естественное обобщение корреляционного анализа на многомерные объекты.

Геометрическая интерпретация

Числовые значения экспериментальных данных, получаемых при исследовании какого-нибудь конкретного явления, всегда зависят от принятого начала отсчета каждого параметра и от масштаба, в котором этот параметр измеряется. Начало отсчета и масштаб никак не связаны с сущностью явлений, поэтому естественно стремятся к представлению данных в некотором стандартном виде, сопоставивом для различных параметров всего массива измерений. С этой целью принято приводить параметры к так называемой центрированной и нормированной форме.

Центрирование параметра равносильно переносу начала координат в точку, соответтвующую арифметическому среднему его значений. Нормирование параметра имеет целью представить параметр не в абсолютных единицах (градусах или мг/м2), а в некоторых безразмерных единицах, харктеризующих отосительное значение признака. Выполним нормирование произвольного измерения j-го признака на i-м объекте по следующей формуле:

, (7.1)

где n – количество измерений признака j. Признаки, нормированые по среднеквадратическим значениям, можно сравнивать, несмотря на их возможную физическую неоднородность.

Введем в рассмотрение n-мерное пространство объектов, где каждый признак будет отображаться точкой в многомерном нормированном пространстве с координатами X1j, X2j, …, Xnj. Каждой точке будет соответствовать вектор, направленный из начала координат в эту точку (по математической традиции между ними не делается особенных различий).

Зададимся вопросом о том, какие отношения между векторами в пространстве объектов будут соответствовать корреляционной связи между признаками. Во-первых, следует обратить внимание на то, что все векторы в нормированном пространстве имеют одинаковую длину (модуль), равную . Во-вторых, если имеется два вектора Х1 и Х2 в n-мерном пространстве и x11, x21, …, xn1 и x12, x22, …,xn2 – проекции векторов на координатные оси, то косинус угла между этими векторами равен:

,(7.2)

т.е. коэффициенту корреляции между признаками x1 и x2.

Если векторы совпадают по направлению, соответствующие им параметры связаны между собой наиболее тесно: косинус угла между векторами и коэффициент корреляции между параметрами равны +1. По мере увеличения угла между векторами связь между параметрами уменьшается и исчезает, когда векторы направлены под прямым углом друг к другу: косинус угла и коэффициент корреляции равны нулю. При дальнейшем увеличении угла между векторами степень связи вновь увеличивается, хотя приращения параметров имеют противоположные знаки. Когда векторы направлены противоположно друг другу, косинус угла и коэффициент корреляции равны –1.

Совокупность коэффициентов корреляции между всеми возможными парами признаков принято представлять в виде корреляционной матрицы r(xj, xk); j = 1,2,…,m; k = 1,2,…,m, которая служит основным "сырьем" для работы многих алгоритмов многомерной статистики (например, в факторном анализе). Матрица симметрична относительно главной диагонали, поскольку r(xj, xk) = r(xk ,xj), а члены матрицы, стоящие на этой диагонали, равны 1, так как r(xj, xj) = 1.

Как рассматривалось в разделе 6.2, коэффициент линейной корреляции адекватен, если график бинарного отношения двух признаков хорошо аппроксимируется прямой линией. С другой стороны, на количественную оценку уровня связи влияет также закон распределения переменых. По этому поводу существует ряд противоречивых утверждений. Например, М. Кэндалл и А. Стьюарт [1973], а впоследствии и Г. Крамер [1975], утверждают, что формула линейного коэффициента корреляции не зависит от вида распределения и является применимой для большинства случаев закономерностей варьирования данных. Однако сложившаяся практика экспериментальной фитоценологии [Василевич, 1969; Миркин, Розенберг, 1978; Зайцев, 1984] показывает, что использование коэффициента корреляции Пирсона в качестве меры связи оправдано лишь тогда, когда совместное распределение пары признаков нормально или приближено к нормальному и когда встречаемость сравниваемых признаков одинакова (элиминация "d-эффекта", где d – параметр таблицы сопряженности 2´ 2). Коэффициенты ранговой корреляции Спирмена и Кендалла (см. раздел 5.6) менее чувствительны к законам распределения и отдельным выбросам значений признаков. Поэтому при анализе корреляционых зависимостей обоснованный положительный вывод предпочтительнее делать при наличии значимых корреляций, установленных всеми мерами связи.

Формы коэффициента корреляции для разных шкал измерений

Аналогами коэффициента корреляции Пирсона для оценки связи между признаками, измеренными в номинальной шкале, являются многочисленные формулы для мер сходства, описанные в разделе 4.7: коэффициенты Жаккара, Съеренсена, Рассела-Рао и т.п.

Для признаков, измеренных в порядковых шкалах, кроме ранговых коэффициентов корреляции Спирмена и Кендалла, ориентировочная оценка корреляционной связи может быть получена с использованием любого из многочисленных коэффициентов оценки зависимости признаков в таблицах сопряженности, описанных ранее в разделе 6.1 (например, полихорического коэффициента Чупрова). Для полноты изложения приведем также некоторые меры сопряженности (см. [Миркин и др., 1989]), используемые специально для таблиц ассоциативности 2´ 2 и имеющие смысл коэффициентов корреляции:

;(7.3)

; (7.4)

где a, b, c, d – значения в клетках таблицы сопряженности 2´ 2.

Коэффициент корреляции Фехнера, используя количественные признаки, сводит, тем не менее, анализ связи к подсчету совпавших отклонений от арифметического среднего:

Rs = (C - H) / (C + H),(7.5)

где С – число совпадений знаков отклонений вариант от соответствующих средних, Н – число несовпадающих знаков; H = nC.

Анализ частных и множественных корреляций.

Коэффициенты частной корреляции оценивают "чистую" связь между двумя признаками, элиминируя возможную зависимость между ними за счет других признаков. Если r(x1, x2) – коэффициент парной корреляции Пирсона между признаками x1 и x2, а r(x1, x3) и r(x2, x3) – подобные коэффициенты между x1 и x3 и x2 и x3, то коэффициент частной корреляции x1 и x2 при исключении зависимости от x3 вычисляется по формуле:

. (7.6)

Поскольку термины “связь” и “зависимость” имеют разный философский и статистический смысл, корреляционный анализ в принципе не предназначен для исследования причинно-следственных отношений между явлениями. Однако расчет коэффициентов частной корреляции позволяет косвенно оценивать и направленность взаимного влияния признаков. Например, если значение r(x1x2 : x3) cущественно превышает r(x1, x2), то можно предположить, что признак x3 выполнет роль "статистического шума", заглушающего связь между признаками x1 и x2. Бывают и обратные ситуации, когда коэффициент частной корреляции показывает, что связь между признаками на самом деле обусловлена тем, что они оба зависят от третьего признака и при элиминации его влияния связь пропадает. С использованием похожих формул можно получать парциальные корреляции, выравнивая выборки не только по одному, а по двум и более признакам.

Представляет также значительный интерес при изучении структуры экосистем исследование множественных корреляций, т.е. корреляций более чем между двумя признаками. Например, коэффициент множественной корреляции признака x1 с двумя другими признаками x2 и x3 будет иметь по В.И. Василевичу [1969] следующий вид:

. (7.7)

В этой формуле перед корнем следует всегда брать знак “+”, следовательно, коэффициент множественной корреляции может принимать значения от 0 до 1.

Методы анализа корреляционной матрицы

На основании значений матрицы r(xj, xk) парных коэффициентов корреляций могут делаться разнообразные выводы о природе связей между явлениями, зависящие от направления исследования и изучаемой предметной области. Например, можно отобрать наиболее близкие между собой биотопы или объединить в группы виды гидробионтов, имеющих сходную экологию (точнее, сходное распределение по станциям наблюдения). Следует отметить принципиальную эквивалентость техники Q- и R-анализа, не зависящей о того, подвергаются анализу сами объекты или их признаки: путем простого транспонирования матрицы исходных данных и перемены местами строк и столбцов легко можно заменить тип анализа на противоположный.

Для анализа корреляционной матрицы используется ряд эвристик. Например, Гопкинс [Gopkins, 1957, цит. по: Василевич, 1969], используя в качестве переменных фитоценотические виды, опубликовал методику выделения групп положительно коррелируемых признаков, которые он назвал "основными единицами" (basic unit). Для этого в качестве центров групп выделяются виды, имеющие отрицательные сопряженности, а затем к этим центрам добавляются виды, положительно коррелируемые с ними. В дальнейшем проводится объединение двух или нескольких групп, содержащих общие виды.

На анализе знаков коэффициентов корреляции основана также технология "концептуального моделирования" COMOD [Качанова, Фомин, 1997]: если у любых трех значимо коррелируемых признаков имеется только одна отрицательная связь или все три связи отрицательны, то в этом случае нарушен знаковый баланс и эмпирические данные образуют "треугольник противоречий", что говорит о нецелостости системы и возможности ее членения на части. При всей внешней привлекательности концепции треугольника непротиворечивых корреляций как простейшего элемента структуры, вряд ли знаковый баланс является универсальным свойством экосистем, а чрезвычайная лабильность статистических связей гидробиологических показателей не позволят сводить анализ поведения биоценозов исключительно к теугольникам противоречий.

Как отмечалось в разделе 2.6, основной способ первичного анализа и визуализации корреляционной матрицы сводится к построению специальных графиков – дендрограмм или дендритов (графов "максимального корреляционного пути").

Наиболее простыми способами построения графических интерпретаций подобного типа являются метод "корреляционных плеяд" П.В. Терентьева [1959; цит. по: Выханду, 1964; Мандель, 1988] и "вроцлавская таксономия", разработанная польскими учеными Вроцлавского математического института [Florek and oth.,1950, цит. по: Василевич, 1969; Ястребов, 1991].

Алгоритм Терентьева осуществляет выделение сильно связанных групп признаков ("корреляционных плеяд") и сводится к следующему. Задается пороговое значение коэффициента корреляции r0, с помощью которого производится построение срезов корреляционного цилиндра, из которых формируется последовательность подграфов, принимаемых в качестве "плеяд". Узлами этих подграфов являются все рассматриваемые признаки, а ребрами – корреляционные связи по абсолютной величине больше r0. При последовательном уменьшении критического уровня, количество ребер увеличивается, плеяды становятся крупнее и начинают сливаться друг с другом. Окончательно выбирается порог r0, скорее отвечающий эстетическим вкусам исследователя, чем каким-то формальным правилам.

Результатом вроцлавской таксономии является полный незамкнутый корреляционный путь, который можно отобразить в виде оптимального дерева – дендрита. Он представляет собой графическую структуру, состоящую из m вершин, соединенных между собой (m – 1) ребрами так, что каждая вершина соединена хотя бы с одной другой. Если длину каждого ребра ассоциировать с величиной коэффициента корреляции rij между вершинами i и j, то оптимальный дендрит имеет максимальную сумму длин соединяющих отрезков из всех возможных. Если принять во внимание, что корреляционная мера по своему смыслу обратна мере дистанции, то граф максимального корреляционного пути идентичен "минимальному дендриту", т.е. дереву минимальной протяженности (minimum spanning tree по [Gower, Ross, 1969]).

Построение полного дендрита начинается с выбора двух наиболее сопряженных признаков, для чего в матрице коэффициентов корреляции определяется максимальное значение rij, i ¹ j; признаки i и j образуют две первые вершины графа. Далее в строках i и j находится следующий наиболее сопряженный признак (для определенности – rjk , где k ¹ j, i), образующий новую третью вершину, соединенную с вершиной j. Далее ищется максимальное значение связи в строках k и j, кроме тех, что уже выбраны. Эта процедура повтояется до тех пор, пока не будут задействованы все признаки. При желании, задавшись пороговым значением r0 , можно полученный полный граф максимального корреляционного пути разбить на подграфы (плеяды), проводя разрыв между теми признаками, которые вошли в первоначальный граф со значением сопряженности меньшем r0. Алгоритм вроцлавской таксономии полностью соответствует известному в кластерном анализе методу ближайшей связи (он же – метод "одиночного сцепления" по терминологии Р. Сокала и П. Снита). Это правило строит "волокнистые" кластеры, т.е. кластеры, сцепленные вместе только отдельными элементами, случайно оказавшимися ближе остальных друг к другу.

Оба метода имеют достаточно хорошую иллюстративность при любой размерности m корреляционной матрицы. Метод Терентьева, выделяющий все возможные внутриплеядные связи, более чувствителен к величине порога разбиения r0 и при его снижении возможно лавинообразное загромождение графа малоинформативными ребрами, число которых стремится к 0.5(m -1)2 при r0 ® 0. Количество ребер дендрита в этих условиях никогда не превышает (m – 1), однако структура полученных кластеров сильно зависит от случайных флуктуаций корреляционной матрицы: при незначительных изменениях величины хотя бы одного коэффициента r0 может произойти коренная перестройка всего графа (своего рода "баттерфляй-эффект").

Ряд исследователей полагают недостатком описанных методов визуализации связей “недостаточную адекватность самого коэффициента Пирсона для выделения сопряженных групп видов и игнорирование доверительных интервалов выборочных статистик” [Василевич, 1969]. Но, если отделить "мух от котлет", то становится очевидным, что сами алгоритмы группировки не имеют никакого отношения ни к способу расчета, ни к степени достоверности корреляционной матрицы. По известному выражению Т. Гексли “математика есть только жернов и, засыпав плохое зерно, мы не можем получить хорошей муки”. Это дело исследователя - провести необходимый отбор измерений, рассчитать исходную матрицу любым методом, который ему покажется более надежным и адекватным его целям (например, используя в качестве меры связи критерий c 2 или иной другой индекс) и принудительно обнулить все коэффициенты, которые ему, по каким-то соображениям, покажутся недостоверными.

Результаты расчетов

Сформируем исходную таблицу наблюдений, выбрав в качестве признаков сочетание систематической (подсемейство или триба) принадлежности и трофической группировки видов хирономид – всего m = 19 переменных. В строки таблицы по всем имеющимся n = 453 наблюдениям зообентоса поместим значения ln(Ns), где Ns – суммарные значения численностей видов по выделеннымым группам водных организмов. Включим также три столбца с дополнительными переменными, отражающими условия взятия каждой пробы: температуру воды в придонном слое, глубину и ширину водоема в точке наблюдения.

Матрица парных коэффициентов корреляции Пирсона, рассчитанная по формуле (7.2) и оценивающая тесноту взаимной связи между всеми 22 исходными переменными, представлена в табл. 7.3.

Таблица 7.3

Матрица парных коэффициентов корреляции Пирсона, рассчитанная по численностями подсемейств и трофических групп хирономид
(жирным шрифтом отмечены корреляции, значимые при р
< 0.05)

 

Признаки

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

22

23

1

Хищ. ChC

1.00

                                         

2

Хищ. Di

-0.09

1.00

                                       

3

Хищ. Or

-0.06

0.10

1.00

                                     

4

Хищ. Pr

-0.17

0.20

-0.03

1.00

                                   

5

Хищ. Tn

0.21

-0.03

-0.04

-0.02

1.00

                                 

6

Вс/Соб ChC

0.30

-0.10

-0.06

-0.17

0.35

1.00

                               

7

Вс/Соб Or

0.06

0.02

-0.03

-0.10

0.06

0.13

1.00

                             

8

Детр ChC

0.38

-0.11

-0.02

-0.10

0.34

0.38

0.06

1.00

                           

9

Детр ChT

0.06

0.04

-0.01

0.09

0.31

0.23

0.13

0.32

1.00

                         

10

Детр Or

-0.01

-0.02

-0.02

-0.05

0.16

0.09

-0.07

0.17

0.19

1.00

                       

11

Сест ChC

0.15

-0.07

0.01

-0.16

0.13

0.31

0.34

0.16

0.13

-0.03

1.00

                     

12

Сест ChT

-0.08

0.19

0.24

0.18

-0.02

-0.10

-0.05

-0.02

0.05

-0.03

-0.05

1.00

                   

13

Сест Pr

-0.09

0.04

-0.02

0.37

-0.04

-0.10

-0.04

-0.11

0.04

-0.03

-0.11

0.03

1.00

                 

14

деТ/филь ChC

0.25

-0.12

0.03

-0.20

0.28

0.47

0.13

0.33

0.10

0.06

0.18

-0.13

-0.13

1.00

               

15

деТ/филь ChT

-0.11

0.30

-0.02

0.23

0.04

-0.08

0.02

-0.05

0.02

-0.03

-0.07

-0.01

0.12

-0.06

1.00

             

16

Фит/дет ChC

0.22

-0.03

-0.04

-0.08

0.15

0.18

-0.06

0.29

0.17

0.10

0.09

-0.06

-0.05

0.24

-0.06

1.00

           

17

Фит/дет Di

-0.13

0.20

-0.02

0.15

-0.00

-0.12

-0.02

-0.11

0.14

0.00

-0.08

-0.03

0.05

-0.11

0.14

-0.03

1.00

         

18

Фит/дет Or

-0.20

0.14

-0.01

0.23

-0.04

-0.14

0.08

0.00

0.40

0.16

-0.10

0.18

0.24

-0.24

0.14

-0.04

0.22

1.00

       

19

Фит/дет Pr

-0.07

-0.03

-0.02

0.36

0.01

-0.11

-0.09

0.06

0.09

0.08

-0.08

0.16

0.20

-0.10

0.04

-0.03

-0.02

0.16

1.00

     

20

Темп. дна

0.20

-0.22

-0.11

-0.32

0.07

0.27

0.05

0.27

-0.07

0.05

0.14

-0.19

-0.20

0.29

-0.14

0.21

-0.25

-0.40

-0.16

1.00

   

21

Глубина

-0.07

-0.10

0.01

-0.18

0.08

0.01

-0.11

-0.05

-0.26

-0.05

-0.04

-0.09

-0.12

0.12

-0.09

-0.08

-0.14

-0.36

-0.09

0.30

1.00

 

22

Ширина

0.03

-0.08

-0.04

-0.17

-0.01

0.06

-0.01

-0.05

-0.22

-0.04

-0.05

-0.08

-0.10

0.06

-0.08

0.01

-0.11

-0.22

-0.10

0.30

0.50

1.00

Х ChC

Х Di

Х Or

Х Pr

Х Tn

В ChC

В Or

Д ChC

Д ChT

Д Or

С ChC

С ChT

С Pr

Т ChC

Т ChT

Ф ChC

Ф Di

Ф Or

Ф Pr

Темп.

Глуб.

Шир.

Примечание: В таблице использованы следующие условные обозначения трофических групп:
“Хищ.” (“Х”) - хищники хвататели; “Вс/Соб ” (“В”) - всеядные собиратели+хвататели; “Детр” (“Д”) - детритофаги собиратели; “Сест” (“С”) - сестонофаги+детритофаги фильтраторы; “деТ/филь” (“Т”) - детритофитофаги собиратели + фильтраторы; “Фит/дет” (“Ф”) - фитодетритофаги собиратели.
Условные обозначения семейств и триб:
Or - Orthocladiinae, Tn - Tanypodinae, Di - Diamesinae, Pr - Prodiamesinae, Ch – Chironominae ( ChC - Chironomini, ChT – Tanytarsini)

На основе матрицы r(xj, xk) сформируем граф корреляционных плеяд по П.В. Терентьеву, представленный на рис. 7.1. В качестве первого среза агрегации плеяд коррелируемых признаков примем порог r0 = 0.31.

Рис. 7.1. Корреляционные плеяды Терентьева, выделенные из матрицы парных коэффициентов корреляции Пирсона
(данные и условные обозначения – из табл. 7
.3)

На этом уровне детализации легко выделяются два следующих обособленных хирономидных комплекса:

Остальные таксономические группы хирономид мало скоррелированы друг с другом. Снижение порога агрегирования до r0 = 0.25 принципиальных изменений в характер классификации не вносят (на рис. 7.1 вновь обозначившиеся связи отмечены пунктиром).

В целом внутри систематических групп прослеживаются более тесные связи, чем между трофическими группировками. Характерен положительный знак практически всех значимых коэффициентов корреляции между численностями гидробионтов. Это свидетельствует о том, что явление конкурирования за пищевые ресурсы мало распространено среди групп хирономид (что не исключает конкуренцию или замещение на видовом уровне). Наибольшая отрицательная корреляция (r = -0.24) между фильтраторами Orthocladiinae и детритофитофагами Chironomini вряд ли обусловлена серьезными экологическими причинами.

Корреляция между численностью гидробионтов и физико-гидрологическими условиями биотопа находится приблизительно на том же или более низком уровне, что и между самими гидробиологическими показателями.

Характерно, что такой параметр, как ширина реки вообще не оказывает никакого влияния на обилие зообентоса. Отрицательная корреляция глубины отбора пробы с численностью большинства групп хирономид не противоречит сложившимся представлениям. Интересным оказалась связь численности с температурой воды в придонном слое: в диапазоне измерений от 7 до 30 оС обилие зообентоса снижается с ростом температуры, что в каждом конкретном случае объясняется особенностями биологии организмов в вегетационный период.

Не претендуя на содержательное истолкование полученных расчетов, отметим, что численность хищников Chironomini (признак 1), температура (признак 20) и глубина отбора проб (признак 21) образуют "треугольник противоречий" по терминологии концептуального моделирования COMOD при одной отрицательной корреляционной связи. В этом случае частные коэффициенты корреляции после поочередной элиминации гидрофизических показателей оказываются больше соответствующих обычных коэффициентов Пирсона:

r1,20 : 21 = 0.227 > r1,20 = 0.196 ; r1,21 : 20 = -0.135> r1,21 = -0.068

 

В аналогичной ситуации фитодетритофаги собиратели Orthocladiinae (признак 18) c теми же переменными образуют непротиворечивый треугольник с двумя отрицательными связями и парциальные корреляции оказываются меньше полных:

r18,20 : 21 = -0.326 < r18,20 = -0.397 ; r18,21 : 20 = -0.273 < r18,21 = -0.357.

Множественные коэффициенты корреляции этих гидробиологических признаков с обоими гидрофизическими факторами в обоих случаях увеличиваются:

r1 – 20,21 = 0.236 ; r18 – 20,21 = = 0.469.

Результаты вроцлавской таксономии по той же корреляционной матрице представим в виде минимального дендрита – графа максимального корреляционного пути на рис. 7.2. Анализируя полученный граф, можно отметить, что при пороговом значении ro = 0.29 все множество таксономических единиц хирономид распадается на 4 индивидуальных элемента и 3 группы, качественно совпадающие с корреляционными плеядами Терентьева. Связи с коэффициентом корреляции менее 0.29 представлены на рис. 7.2 пунктиром.

Рис. 7.2. Минимальный дендрит – граф максимального корреляционного пути (данные и обозначения – из табл. 7.3)

Поскольку ранее нами отмечалось, что дендрит и дендрограмма – визуальное отображение одной сущности, представим на рис. 7.3 те же результаты в виде дендрограммы. Т.к. для последней традиционно использование мер расстояния, а коэффициент корреляции Пирсона r имеет смысл меры сходства, то обычно проводят построение дендрограммы в инверсной шкале (1 –abs(r)), где значения r берутся по абсолютной величине.

Рис. 7.3. Дендрограмма группировки признаков по методу вроцлавской таксономии (данные и обозначения – из табл. 7.3)

 

Дальше К следующему разделу Назад К предыдующему разделу Начало К началу разделу Конец К концу разделу Список К оглавлению