Дальше К следующему разделу Назад К предыдующему разделу Начало К началу разделу Конец К концу разделу Список К оглавлению

4.7. Оценка видового сходства биоценозов

Типы мер сходства

Индексы видового сходства имеют принципиальное отличие от всех ранее рассмотренных индексов тем, что вычисленные значения сравниваются не с некоторой эталонной шкалой "грязности", "разнообразия", сапробности и проч., а определяют взаимную упорядоченность объектов (проб, описаний, видовых списков биоценозов) друг относительно друга.

Существует несколько классификаций методов расчета индексов связи [Sokal, Sneath, 1963; Goodall, 1973; Василевич, 1969; Миркин, Розенберг, 1978; Сёмкин, 1979 и др.]. Так, Р. Сокал и П. Снит различали три типа мер сходства:

Современные исследователи [Гайдышев, 2001] уменьшают это количество типов до двух, полагая ассоциациативные меры естественным распространением "косинусных" мер на номинальные шкалы.

Б.М. Миркин с соавторами [1989] выделяют также следующие типы: вероятностные меры, информационные меры и преобразованные показатели. Однако все меры являются в какой-то степени вероятностными (поскольку оценивается вероятность того, что сравниваемые объекты будут идентичными) и представляют собой некоторые алгебраические выражения (или "преобразования" по Миркину).

Выражений для мер близости или расстояния между объектами существует великое множество: уже на начало 70-х годов в своем обзоре Д. Гудол [Goodall, 1973] перечисляет около 40 коэффициентов подобия. Приводить в полном объеме конкретные формулы или хронологию их создания вряд ли целесообразно, поэтому мы остановимся на некоторых индексах, традиционно употребляемых в геоботанике и гидробиологии (хотя и их набралось немалое количество).

"Самое целесообразное, - как говаривал Н.В. Тимофеев-Ресовский, - не писать того, что все равно лучше напишут немцы…", т.е. библиографию и историю вопроса [Шноль, 2001].

Д. Гудол замечал, что ...выбор лучшего индекса – дело вкуса”. Правда, один из авторов [Розенберг, 1984] полагает, что " вкус" должен диктоваться точными знаниями о возможностях того или иного показателя и целями, стоящими перед исследователем. Но…

Мем № 24: “Выбор конкретных коэффициентов зависит в первую очередь от цели исследования. А поскольку формальных правил для выбора целей нет, следовательно, не может быть и формальных правил для выбора подходящей меры сходства” В.Л. Андреев [1979б].

Меры ассоциации

Большинство выражений для индексов сходства основаны на общих положениях теории множеств, которые могут быть интерпретированы в виде диаграммы Венна (см. рис. 4.6). При использовании конкретных выражений для коэффициентов подобия в формулы могут подставляться мощности (число элементов) подмножеств a, b, c и d, если исследователи хотят ограничиться альтернативными высказываниями “отсутствие / наличие” вида, либо показатели обилия в абсолютной или интервальной шкале. В первом случае мы будем отождествлять мощность подмножества с ним самим.

Рис 4.6. Диаграмма интерпретации составляющих подмножеств признакового пространства видов

Первая попытка количественного выражения степени сходства между сообществами принадлежала в 1901 г. швейцарскому исследователю П. Жаккару (P. Jaccard) и коэффициент флористического сходства Жаккара до сих пор широко используется в геоботанике:

KJ = с / (a + b - c) . (4.25)

Гидробиологи (да и вообще, экологи) чаще применяют формулу коэффициента общности видового состава Т. Съёренсена [Sőrensen, 1948М]:

KS = 2 с / (a + b ) .(4.26)

Приведем без комментариев еще несколько подобных формул коэффициентов, оперирующих с мощностями подмножеств [Сёмкин, 1979; Миркин с соавт., 1989; Дедю, 1990]:

В качестве несимметричных мер можно отметить:

K10 = с / (a + c) ; K11 = с / (b + c) ;

KD = [c – min(a,b)] / [c + min(a,b)] .

В дальнейшем было сформулировано [Сёмкин, Двойченков, 1973] несколько правил, по которым можно "изобрести" неограниченное количество мер, подобных Ki .

Традиционное для теории измерений хеммингово расстояние (метрика Хемминга), менее других похоже на перечисленные коэффициенты, т.к. оно не является безразмерным и не ограничено сверху числом 1:

RH = (c + d) .(4.27)

В ряде работ [Миркин, Розенберг, 1978, 1979] делаются попытки оценить, какие коэффициенты из вышеперечисленных "завышают" или "занижают" сходство между сообществами и каким коэффициентам следует отдать предпочтение в работе. Однако вряд ли имеет смысл проводить сравнительных анализ абсолютных значений коэффициентов, т.к. в данном случае единственным критерием оценки является последовательность агрегирования объектов на основании меры сходства в более крупные таксоны, иерархические деревья и проч.

Несмотря на почти повсеместную традицию использовать для оценки сходства биоценозов меры ассоциативности по Жаккару (4.25), Съёренсену (4.26) и проч., нам не кажется плодотворной идея без особенной нужды сводить количественную шкалу, в которой измерено подавляющее большинство гидробиологических показателей к информативно более ослабленной номинальной шкале. Слишком много труда гидробиологов вкладывается в подсчет значений численностей гидробионтов, чтобы потом огрублять исходные данные в мере Съёренсена до статистически сомнительного факта простой встречаемости видов...

Коэффициенты связи

Использование в качестве меры близости объектов косинусов углов между информативными векторами удобно тем, что функция сходства нормируется в шкале от 0 до 1 и не зависит от абсолютных значений переменных. Чтобы избежать разбиения на две дополнительные подгруппы положительно и отрицательно коррелируемых параметров, обычно используют квадраты (или абсолютные значения) косинусов углов. В разделах части 3 нами подробно будут рассмотрены конкретные формулы вычисления мер этого типа для различных шкал представления признаков: коэффициенты корреляции Пирсона, Спирмена и Кендалла, критерий c 2 и другие меры оценки сопряженности. Ниже рассматриваются некоторые специфические для экологических исследований коэффициенты этого типа.

При подсчете мер сходства показателей обилия, выраженных в абсолютных или относительных значениях видовой численности или биомассы возможно использование коэффициента К. Чекановского [Czekanowcki, 1911М]:

,(4.28)

где Xi и Yi – количественные значения вида i в пробах X и Y, S – общее число видов.

К другим коэффициентам, оценивающим сходство биоценозов по показателям обилия, можно отнести следующие:

,(4.29)

Kкомб = MS× KJ ,

где MS – коэффициент общности удельного обилия, KJ – коэффициент сходства видового состава [Алёхин с соавт., 1925М], полностью совпадающий с коэффициентом Жаккара (4.25).

Меры расстояния

Наиболее общей формулой для подсчета расстояния в m-мерном признаковом пространстве между объектами X1 и X2 является мера Минковского [Ким с соавт.,1989]:

,(4.30)

где r и pпараметры, определяемые исследователем, с помощью которых можно прогрессивно увеличить или уменьшить вес, относящийся к переменной i, по которой соответствующие объекты наиболее отличаются. Параметр p ответственен за постепенное взвешивание разностей по отдельным координатам, параметр r определяет прогрессивное взвешивание больших расстояний между объектами.

Мера расстояния по Евклиду получается, если метрике Минковского положить r = p = 2, и является, по-видимому, наиболее общим типом расстояния, знакомым всем по школьной теореме Пифагора, – геометрическим расстоянием в многомерном пространстве, которое вычисляется следующим образом:

,(4.31)

Заметим, что евклидово расстояние может быть вычислено как по исходным, так и по стандартизованным данным (например, нормированным на интервале от 0 до 1).

При r = p = 1 метрика Минковского дает "расстояние городских кварталов" (манхэттенское расстояние), которое является просто суммой разностей по координатам:

,(4.32)

В большинстве случаев эта мера расстояния приводит к таким же результатам, что и обычное расстояние Евклида. Однако отметим, что для нее влияние отдельных больших разностей (выбросов) уменьшается, так как они не возводятся в квадрат.

При r = p ® ¥ имеем метрику доминирования (она же, супремум-норма или расстояние Чебышева), которая вычисляется по формуле:

DT(X1,X2) = max | x1ix2i |. (4.33)

Это расстояние может оказаться полезным, когда желают определить два объекта как "различные", если они различаются по какой-либо одной лимитирующей координате (каким-либо одним измерением).

На практике, особенно в медико-биологических исследованиях, часто возникает проблема исследования связи в таблицах данных, измеренных в различных шкалах. Для этой цели был предложен [Gower, Ross, 1969; Ким с соавт.,1989] коэффициент Гауэра, допускающий одновременное использование трех шкал: количественной, порядковой и номинальной:

,(4.34)

При этом:

Одним из важных шагов по упорядочению используемых оценок явилось формулировка понятий “эквивалентности” и “коэквивалентности” мер сходства. Согласно теореме Б.И. Семкина и В.И. Двойченкова [1973], две меры r1 и r2 эквивалентны, если они связаны монотонно возрастающей зависимостью j , т.е. r1 = j (r2). Примерами таких функций j являются:

,

где a и b – константы, e – любое рациональное число.

Понятие эквивалентности мер имеет важное следствие: если две меры эквивалентны, то они приводят к одной и той же последовательности объектов, упорядоченных по их сходству: близкие объекты остаются близкими и т.д. Например, можно показать, что свойством эквивалентности обладает континуум мер сходства, представленных формулой:

, (4.35)

где -1 < u < ¥ , а остальные обозначения приведены на рис. 4.6. Нетрудно заметить, что при u = 0 мы имеет хорошо известный коэффициент Съёренсена (4.26); мера при u = 1 численно совпадает с коэффициентом Жаккара (4.25), а при u = 3 – с коэффициентом Сокала–Снита и т.д., поэтому споры о том, какой коэффициент лучше, можно считать беспредметными. То же можно сказать и об использовании более "сложных" формул, которые часто создают только иллюзию объективности и точности классификации.

Если бы принцип оценки эквивалентности получил достаточное распространение в количественной гидробиологии лишь только как "санитарно-профилактическое средство", препятствующее изобретению новых эмпирически мало подтвержденных индексов, неустанно появляющихся в различных областях, от этого была бы большая польза: биологическая литература освободилась бы от множества неоправданных манипуляций с числами и ненадежных рекомендаций.

Введенное понятие “эквивалентности” оказывается полезным еще и потому, что приводит к пониманию смысла использования неэквивалентных мер, как наиболее независимых и ценных членов "распознающего коллектива" [Розенберг с соавт., 1994], оценивающего различные свойства анализируемого материала. Если, например, выводы, полученные на основе использования корреляционных мер сходства, совпадут с выводами кластерного анализа на основе евклидовой дистанции, то с уверенностью можно утверждать, что они действительно основаны на исходных данных, а не на методе их извлечения.

Дальше К следующему разделу Назад К предыдующему разделу Начало К началу разделу Конец К концу разделу Список К оглавлению