Дальше К следующему разделу Назад К предыдующему разделу Начало К началу разделу Конец К концу разделу Список К оглавлению

7.7. Общая методика анализа водных объектов по многомерным данным гидробиологического мониторинга (вместо резюме)

Обобщая изложенное в разделах 7.4-7.6, можно предложить следующую методику классификации групп многомерных гидроэкологических измерений, основные этапы которой рассмотрим на примере оценки сходства 14 станций наблюдений по течению р. Сок.

1. Формирование матрицы исходных данных

Методы анализа многомерных наблюдений связаны с определенными ограничениями, как по размеру обрабатываемых матриц, так и по характеру распределения значений признаков. В связи с этим, не представляется возможным использовать для расчетов детализацию гидробиологических переменных на уровне видов: нельзя рассчитать, например, достоверную корреляционную матрицу с использованием столбцов измерений, где встречаемость на всем массиве составляет только 1-2 раза, что для зообентоса далеко не редкость.

Альтернативой информативному пространству видов являются суммарные показатели обилия по систематическим или трофическим группам гидробионтов и другие обобщенные показатели. В качестве исходных данных по 88 наблюдениям, выполненным на р. Сок, будем использовать 11 признаков: логарифмы общих численностей и биомасс по всем видам бентоса, индексы Шеннона, Пареле и Вудивисса и 6 показателей обилия ln((Ns*Bs)0.5) по отдельным подсемействам и трибам хирономид. Объем полученной информации в исходном состоянии: 88 * 11 = 968 значений.

2. Снижение признакового пространства путем выделения главных компонент

Сократим размерность переменных с 11 до 3 ведущих факторов, которые объясняют 58.2% статистического варьирования исходных признаков. Интерпретация выделенных главных компонент, нагрузки которых на исходные переменные представлены в табл. 7.7, достаточно очевидна: первый фактор связан с общим обилием зообентоса и наиболее массовыми видами хирономид, второй фактор трактуется как биоразнообразие, третий фактор объединяет более редкие группы хирономид. Можно лишний раз обратить внимание читателя на отрицательный вклад олигохетного индекса в формирование обобщенных переменных.

Объем информации после факторизации составил 88 * 3 = 264 значения.

Таблица 7.7

Значения факторных нагрузок по трем главным компонентам, рассчитанным по обобщенным индексам и показателям обилия группп хирономид на р. Сок
(жирным шрифтом отмечены нагрузки, превышающие 0.5)

Обобщенные индексы и показатели обилия групп

Главные компоненты

1

2

3

Численность зообентоса Ns

0.717

0.133

0.453

Биомасса зообентоса Bs

0.833

0.074

-0.077

Индекс Шеннона H

0.225

0.783

-0.089

Индекс Пареле P

-0.212

-0.598

-0.106

Индекс Вудивисса V

-0.085

0.714

-0.081

Триба Chironomini

0.840

-0.040

-0.139

Триба Tanytarsini

0.377

0.346

0.653

Подсемейство Diamesinae

0.025

-0.261

0.652

Подсемейство Orthocladiinae

-0.119

0.605

0.610

Подсемейство Prodiamesinae

-0.090

-0.004

0.574

Подсемейство Tanypodinae

0.574

0.133

0.044

 

3. Дисперсионный анализ факторов

Значения трех главных факторов, вычисленных для каждого из 88 измерений, могут явиться основой для дисперсионного анализа, где проверяется нулевая гипотеза об отсутствии влияния группировки по станциям на характер выполненных наблюдений. Эта гипотеза не отвергается при F(13,74) = 1.05 и p=0.41 для фактора 2, т.к. на всех станциях зафиксирован приблизительно одинаковый уровень биоразнообразия, которое мы связали с этим фактором. Для остальных двух компонент факторной модели влияние распределения по станциям оказалось достоверным с высоким уровнем значимости и величиной F-критерия, равной 3.4 и 4.2 для фактора 1 и 3, соответственно. Анализ пространственной динамики групповых средних значений факторов, представленной на рис. 7.15, дает возможность сделать вывод о существенных сдвигах в видовой структуре хирономид вдоль течения реки от истока к устью, где постепенно выпадают виды Tanytarsini, Diamesinae и Prodiamesinae, замещаемые видами Chironomini на фоне общего увеличения обилия зообентоса.

Рис. 7.15. Изменение групповых средних значений главных компонент по станциям от истока к устью р. Сок

 

4. Формирование матрицы расстояний

Рассчитаем для каждой пары станций р. Сок статистики, отражающие расстояние между "центрами тяжести" соответствующих выборок (меры Махалонобиса и Т-критерии Хотеллинга) и достоверность различий между ними (F-критерии и значения вероятностей p) в факторизованном пространстве.

Смысл преобразований в главные компоненты, выполненных на втором этапе, заключался не сколько в том, чтобы уменьшить объем вычислений, а чтобы обеспечить устойчивую невырожденность ковариационных матриц. Например, виды подсемейства Diamesinae встречались только на станциях 1-4, что означает полную невозможность расчета расстояния Махалонобиса в исходном пространстве признаков для пар станций от 5 до 14 из-за проблем с нахождением обратных матриц. Использование преобразованных факторов практически исключает эти проблемы, что позволило нам гладко вычислить уровни различий между парами всех 14 станций р. Сок, представленные в табл. 7.8.

Объем информации, заключенной в матрице расстояний с учетом ее симметричности: 14 * (14-1)/2 = 91 значение.

Таблица 7.8

Значения T2-критерия Хоттелинга (выше главной диагонали) и вероятностей p оценки различий по F-критерию (ниже главной диагонали) между парами станций р. Сок по комплексу гидробиологических показателей

ст.

n

изм.

Номера станций наблюдений на р. Сок

1

2

3

4

5

6

7

8

9

10

11

12

13

14

1

8

_

2.9

9.0

19.5

6.4

14.3

2.8

5.4

18.3

2.5

8.3

28.0

24.0

21.3

2

9

0.497

8.5

7.5

20.3

4.6

8.6

15.0

31.9

5.6

6.6

42.9

41.5

19.1

3

11

0.086

0.096

2.8

4.8

5.3

9.5

6.5

29.4

4.2

7.6

33.7

31.2

28.3

4

9

0.011

0.135

0.492

10.0

3.1

1.5

8.9

22.4

9.2

15.6

30.3

28.8

15.9

5

11

0.175

0.006

0.264

0.064

8.3

6.2

1.7

21.3

1.5

2.7

22.3

19.9

21.1

6

1

0.110

0.401

0.309

0.551

0.165

5.9

12.2

4.0

2.6

4.6

4.9

4.8

2.1

7

1

0.611

0.194

0.130

0.773

0.253

*

3.6

3.4

3.5

4.1

11.0

4.9

6.4

8

5

0.285

0.037

0.191

0.121

0.697

0.346

0.676

6.0

3.4

0.6

8.8

6.4

12.3

9

6

0.022

0.003

0.002

0.009

0.008

0.570

0.617

0.285

6.1

5.4

3.9

1.7

5.3

10

2

0.630

0.307

0.383

0.154

0.757

*

*

0.618

0.377

1.2

5.9

5.3

10.1

11

1

0.235

0.276

0.189

0.074

0.563

*

*

0.955

0.474

*

4.8

4.0

7.3

12

11

0.002

0.0

0.000

0.001

0.003

0.338

0.099

0.107

0.371

0.256

0.344

0.6

5.1

13

10

0.004

0.0

0.001

0.002

0.006

0.360

0.359

0.207

0.702

0.310

0.435

0.909

4.9

14

3

0.029

0.029

0.005

0.045

0.014

*

*

0.178

0.383

0.586

*

0.295

0.325

Примечания: 1. Жирным шрифтом отмечены вероятности, где различия недостоверны.
2. Для клеток, отмеченных *, значения вероятностей не определены, а вместо расстояния Махаланобиса рассчитывались квадраты евклидовой дистанции.

 

5. Многомерное шкалирование

В качестве коэффициентов матрицы сходства между комплексами измерений на различных станциях р. Сок можно выбрать любую из четырех статистик, полученных на этапе 4, поскольку для метода МНШ важны не абсолютные значения расстояний, а их взаимная предупорядоченность. На этот раз выполним многомерное шкалирование с использованием матрицы расстояний, составленной из значений критерия Хоттелинга (см. табл. 7.8).

Полученное решение с достаточной степенью надежности воспроизводит взаимную упорядоченность объектов, заданную в исходной метрике: нормированный коэффициент стресса равен 0.163. Представленные визуально на рис. 7.16 координаты расположения станций в пространстве двух основных шкал позволяют сделать вывод о закономерном изменении гидробиологической обстановки вдоль течения р. Сок: номера станций почти монотонно возрастают вдоль шкалы 1.

Окончательное количество информации после трех этапов сжатия составило только 14 * 2 = 28 значений, т.е. около 3% от исходного объема.

Если по той же матрице расстояний, составленной из Т-статистик Хотеллинга, выполнить иерархический кластерный анализ с использованием, например, алгоритма Уорда, то получим дендрограмму, изображенную на рис. 7.17. Обе формы представления одной и той же сущности в некотором смысле похожи, но далеко не идентичны, поскольку подходят к проблеме классификации объектов с различных концептуальных позиций. Сравнение дендрограммы на рис. 7.17, полученной с использованием всего массива наблюдений, и аналогичных дендрограмм на рис. 7.4, где каждую станцию представляло только одно, случайным образом взятое наблюдение, свидетельствует о несомненном преемуществе статистических методов классификационных построений в гидробиологии.

Рис. 7.16. Отображение станций р. Сок в пространстве двух шкал, полученных с использованием статистики Хотеллинга

Рис. 7.17. Дендрограмма классификации станций наблюдения р. Сок по пробам зообентоса, выполненная с использованием метода Уорда и Т-критерия

 

Дальше К следующему разделу Назад К предыдующему разделу Начало К началу разделу Конец К концу разделу Список К оглавлению