Дальше К следующему разделу Назад К предыдующему разделу Начало К началу разделу Конец К концу разделу Список К оглавлению

2.3. Информационное описание экосистем: показатели, “индексы” и шкалы их измерения

"Систематика" экологических показателей

Статистическая постановка задачи экологического мониторинга предполагает, что наблюдается некоторое множество экологических состояний. Оно может содержать как различные состояния одного объекта, так и состояния разных объектов, соизмеримых между собой в количественном отношении.

Для количественной характеристики объектов или явлений в теории информационных систем (см. раздел 1.6) употребляется понятие особого рода – “показатель”. Он обычно состоит из численного выражения и набора качественных реквизитов, определяющих конкретные условия, способ, место и время проведения измерения.

Для описания наземных экосистем предложен набор, включающий свыше 80 различных показателей [Исаков с соавт., 1986], но и он неполон и не всегда применим к водным экосистемам, для которых нужно разрабатывать свою систему показателей. В предыдущей главе мы достаточно подробно описали состав показателей нашей гидробиологической базы данных. Чтобы окончательно определиться со взглядами гидробиологов по поводу того, какие показатели должны включаться в модель, приведем с незначительными сокращениями выдержку из статьи А.И. Баканова [2000б].

“Различные показатели можно классифицировать по разным основаниям:

Целостные свойства экосистем могут характеризовать следующие показатели:

Помимо разработки количественных показателей необходимо указать возможность их содержательной интерпретации, область применения, методику оценки систематических и случайных ошибок, охарактеризовать устойчивость показателей к ошибкам в исходных данных и к малым возмущающим воздействиям, к отклонению статистического распределения от нормального.”

Мы привели столь обширную цитату не без прагматического смысла – иначе нам пришлось бы самим, в целях полноты изложения, придумывать некий похожий классификатор. Несмотря на некоторую схематичность и эклектичность, достоинство приведенного списка заключается в исчерпывающей полноте, хотя нам трудно представить, как на современном этапе можно вычислить большинство перечисленных целостных характеристик экосистем. Поэтому ограничимся в своих последующих расчетах и аналитических выводах признаками, непосредственно основанными на показателях обилия видов (вслед за В.И. Василевичем [1969], под обилием мы понимаем любую меру, характеризующую массовость вида на данном участке, что соответствует английскому аналогу quantity of species).

В состав объектно-характеристических матриц, участвующих в математической обработке, мы будем включать не только непосредственные значения численности N (экз/м2) и биомассы В (г/м2), традиционно используемые для оценки состояния видовых популяций в пробах зообентоса, но и некоторый набор обобщенных показателей – "индексов", подробно описанных в главах 3 и 4. Отношение к таким расчетным показателям вряд ли можно назвать однозначным.

В настоящее время только для мониторинга пресноводных водоемов по зообентосу применяется свыше 60 методик оценки экосистем [Баканов, 2000а], использующих расчетные индексы и их различные функциональные комбинации, которые объявляются основанием для классификации состояний "патология-норма". Это вряд ли можно назвать разумной тенденцией. Поверхностно-эмпирический характер некоторых индексов поражает иногда своей чисто человеческой нелогичностью или бессмысленностью математической интерпретации и оставляет огромное поле для вопросов “Почему так?”, остающихся, как правило, без ответа. Именно этот "смысловой произвол" вызывает некоторое негативное отношение к такого рода упражнениям.

В частности, каждый из индексов, выделяя ту или иную особенность биотического сообщества, недоучитывает другие, в результате чего возникает естественный феномен несовпадения в оценках качества экосистем по различным показателям. Чтобы преодолеть трудности в трактовке такой ситуации, ряд уважаемых исследователей предлагают методы вычисления еще более обобщенных показателей, используя, чаще всего, простое усреднение пронормированных значений. Новый индекс, как правило, нисколько не лучше составляющих его родительских индексов, за исключением того, что он уже никакой физической сути явлений не отражает и надежно нивелирует все статистические всплески исходных данных, сигнализирующие о возможной экологической опасности (см. раздел 1.5).

Другим приемом "индексотворчества" является деление одного показателя на другой (например, концентраций меди в воде и в донных отложениях или численностей двух разных групп хирономид). При использовании таких индексов забывается, что частное от деления не содержит никакой информации об абсолютных значениях составляющих показателей и один и тот же коэффициент донной аккумуляции может быть как при катастрофических концентрациях меди, так и при незначительных ее следах.

Вместе с тем, индексы могут оказаться весьма эффективными, будучи включенными, наряду с натуральными показателями, в многофакторные модели прогнозирования, поскольку отражают новую дополнительную информационную сущность объекта, в явном виде не содержащуюся в исходных данных. Более того, весь смысл математической обработки многомерных таблиц наблюдений заключается, в сущности, в той же "индексологии" – в редукции данных или понижении размерности признакового пространства типа "объект-признак". В регрессионном анализе многочисленные взаимозависимые наблюдаемые переменных сводят к одной переменной (отклику), в факторном анализе – к 2-3 обобщенным ненаблюдаемым главным компонентам, в кластерном анализе – к объединению объектов в некоторые подмножества и т.д. Принципиально весовые оценки и обобщающие формулы, "на глазок" записанные экспертом, ничем не отличаются от рассчитанных коэффициентов математических моделей, а, при игнорировании исходных предпосылок моделирования, могут значительно превосходить последние в адекватности. Поэтому применение в действующих методиках биологического мониторинга или математических моделях подмножества индексов, вносящих новую информационную сущность (например, индекс Шеннона) или являющихся квалифицированным экспертным обобщением (например, индекс Вудивисса), представляется вполне обоснованным.

Впрочем, “что такое хорошо и что такое плохо” – весьма субъективное понятие и каждый исследователь отстаивает свою "шкалу ценностей".
Например, видовое обилие зообентоса отражают сразу два далеко не симбатных показателя: численность экземпляров N и биомасса B. Это не всегда удобно, поскольку приходится либо проводить два параллельных расчета, либо делать конкретный выбор, преодолевая муки осла Буридана, и учитывать лишь одну сторону явления. Поэтому понятно стремление исследователей заменить отдельные показатели обилия одной комплексной величиной. Такими свойствами, в частности, обладает индекс плотности населения (N*В)0.5, приведенный под таким названием в словаре И.И. Дедю [1990] и использованный в разное время как исследователями-гидробиологами (см: Зенкевич Л.А., Броцкая В.А. Материалы по экологии руководящих форм бентоса Баренцева моря // Уч. зап. МГУ. Зоол. 1937. № 3. С. 203-226), так и специалистами по геоботанике (В.М. Понятовская и И.В. Сырокомская в 1960 г., Т. Фрей в 1965 г. и др.; цит. по: [Василевич, 1969]). Как показали расчеты, приводимые нами в части 3, индекс вполне адекватно отражает биоценотическое значение вида в сообществах зообентоса с точки зрения соотношения обилий, а распределение его прологарифмированных значений достаточно близко к нормальному.
В свою очередь, такие экологи как Т.А. Работнов, В.С. Ипатов, А. Ламберт и Б. Дейл (см. также [Василевич, 1969]), весьма категоричны в своем мнении, оценивая подобные индексы как лишенные теоретических оснований и представляющие лишь псевдонаучную форму приведения данных. В.И. Василевич, например, пишет: “Нельзя складывать или умножать признаки, количественно выраженные в разных единицах измерения. Кроме того, в результате математических манипуляций с исходными величинами мы должны получить величины, имеющие реальный смысл. Но что мы получим, умножив, например, встречаемость на вес? Вряд ли эта величина говорит нам о каких-то действительных свойствах ценопопуляции”.

Шкалы экологических данных и особенности их обработки

Под информационной структурой экологического объекта будем понимать определенное представление о внутренней организации и геометрической конфигурации рядов данных. Формальные представления о многомерных структурах, изучаемых в прикладной статистике, изложены в фундаментальной монографии [Айвазян с соавт., 1989]. Задачи, связанные с упорядочением и структуризацией данных, можно объединить в рамках теории фундаментальных триад, или именованных множествах М.С. Бургина [1997; цит. по: Сердюцкая, Каменева, 2000].

Как было показано выше, в качестве "сырья" для математической обработки мы можем использовать как результаты натурных наблюдений, так и экспертные оценки, имеющие различные диапазоны, характер распределений и форму представления численных значений. Данные, полученные при измерении одного показателя, можно рассматривать как отдельные значения шкалы I. Следовательно, m-мерный объект будет представлен m такими шкалами I1, I2, …, Im, соединяя в себе m различных свойств. К примеру, I1 может быть шкалой для измерения температуры водной среды, I2 – шкалой для определения ее прозрачности, I3 – соответствовать численности некоторого вида гидробионтов. Для решения задач математической статистики и распознавания образов необходимо предварительно построить некоторое более или менее универсальное отображение данных, содержащее возможности для обобщения отдельных измерений и совмещения разнородных шкал.

Как только мы абстрагируемся от реальных биологических объектов и заменяем их m-местными наборами чисел, так сразу попадаем в область действия законов теории измерений [Пфанцагль, 1976; Орлов, 1978, 1980], регламентирующих нашу свободу в обращении с этими наборами. В большинстве случаев существует бесконечное множество способов измерения одного и того же признака: длину можно измерить в метрах, дюймах, локтях и т.д., температуру – по Цельсию, Реомюру, Кельвину. Преобразования, с помощью которых осуществляется переход от одной частной шкалы к значениям этого признака в других частных шкалах, называются допустимыми. Например, для перехода от значений температуры в шкале Фаренгейта к значениям по Цельсию нужно использовать следующее допустимое преобразование: умножить все значения на 5/9 и вычесть 160/9.

В биологических исследованиях наиболее распространены следующие типы шкал [Хованов, 1982; Айвазян с соавт., 1983; Котов, 1985; Котов, Терентьева,1989]:

В зависимости от того, в каких шкалах измерены данные, репрезентативная теория измерений, основные понятия и применения которой рассматриваются в обзорах [Стивенс, 1960; Орлов, URLа,б], определяет круг возможных арифметических операций над этими числами. Например, имея отметки учащихся как один из видов экспертного оценивания, вряд ли кто-либо будет утверждать, что знания отличника равны сумме знаний двоечника и троечника (хотя 5 = 2 + 3), в то время как в экологических методиках подобные операции в интервальных шкалах – не редкость.

Традиционным для сравнительного анализа двух совокупностей является самое простое – сравнение по средним значениям. А как вычислять средние? Ф. Мостеллер и Дж. Тьюки [1982] проводят анализ различные видов средних величин: среднее арифметическое, медиана, мода, среднее геометрическое, среднее гармоническое, среднее квадратическое, бивес-оценки (см. также [Розенберг с соавт., 1994а]). Обобщением нескольких из перечисленных является среднее по А.Н. Колмогорову [1985]. Для чисел X1, X2, ..., Xn среднее по Колмогорову вычисляется по формуле:

G{(F(X1) + F(X2) + ... + F(Xn))/n}, (2.4)

где F – строго монотонная функция, G – функция, обратная к F.

Если F(x) = x, то среднее по Колмогорову (2.4) – это среднее арифметическое, если F(x) = ln x, то среднее геометрическое, если F(x) = 1/x, то среднее гармоническое, и т.д. Медиану и моду нельзя представить в виде средних по Колмогорову.

Общее понятие среднего (по Коши) таково: средней величиной является любая функция f(X1, X2, ..., Xn), такая, что при всех возможных значениях аргументов значение этой функции не меньше, чем минимальное из чисел X1, X2, ..., Xn , и не больше, чем максимальное из этих чисел. При допустимом преобразовании шкалы значение средней величины, очевидно, меняется. Но выводы о том, для какой совокупности среднее больше, а для какой – меньше, в соответствии с требованием инвариантности выводов не должны меняться.

Сформулируем математическую задачу поиска вида средних величин, результат сравнения которых устойчив относительно допустимых преобразований шкалы [Орлов, URLб]. Пусть для любых двух совокупностей наблюдений справедливо соотношение средних по Коши:

f(Y1, Y2, ..., Yn) < f(Z1, Z2, ..., Zn) .

Тогда для устойчивости результата сравнения средних необходимо, чтобы для любого допустимого преобразования g из группы допустимых преобразований соответствующей шкалы было справедливо также неравенство

f(g(Y1), g(Y2), ..., g(Yn)) < f (g(Z1), g(Z2), ..., g(Zn)) ,

т.е. среднее преобразованных значений из первой совокупности также было меньше среднего преобразованных значений для второй совокупности.

Приведем численный пример, показывающий некорректность использования среднего арифметического f(X1, X2) = (X1+X2)/2 в порядковой шкале. Пусть Y1= 1, Y2 = 11, Z1 = 6, Z2 = 8. Тогда f(Y1, Y2) = 6, что меньше, чем f(Z1, Z2) = 7. Пусть строго возрастающее преобразование g таково, что g(1) = 1, g(6) = 6, g(8) = 8, g(11) = 99. Тогда f(g(Y1), g(Y2)) = 50, что больше, чем f(g(Z1), g(Z2)) = 7. В результате преобразования шкалы упорядоченность средних изменилась.

С помощью математической теории измерений, дающей основу для разработки, изучения и применения конкретных методов расчета, удается описать вид допустимых средних в основных шкалах:

Другим обстоятельством, влияющим на результат сравнения средних двух выборок, является характер распределения данных. Приведем без купюр фрагмент из статей А.А. Любищева [1969a,б] , которые можно назвать апологией здравого смысла в статистике:

Но разве так трудно точно вычислить среднее значение? Конечно, можно сложить показания всех проб и разделить на число всех проб, и мы получим среднее арифметическое значение, но только ценность этого результата будет часто незначительна. Например, мы сравниваем число вредителей на двух участках – обработанном инсектицидами и контрольном – для выяснения эффективности мероприятия. Дает ли простое сравнение средних арифметических из проб на обоих участках надежное указание на то, на каком участке изучаемого нами насекомого больше? Не всегда. Возьмем простой придуманный пример. На двух участках взято по четыре пробы, и количество насекомых в каждой пробе оказалось:

Пробы

1

2

3

4

Всего

Среднее арифметическое

Среднее геометрическое

Участок 1

4

3

4

5

16

4,0

3,94

Участок 2

2

1

2

15

20

5,0

2,78

Если верить среднеарифметическому, то на втором участке насекомых больше. Но если выберем другую среднюю – среднюю геометрическую (перемножим все четыре цифры и извлечем из произведения корень 4-й степени), то получаем обратный результат: насекомых больше на первом участке. Какой же вывод правильный? Разве средняя арифметическая не естественное выражение реальной действительности? Далеко не всегда. Перенос результата проб на весь участок правомерен лишь в том случае, если в самих взятых пробах мы обнаруживаем отражение определенного закона изменчивости. Если же изменчивость показывает ненормальные особенности, то и вывод будет ненадежен. И вот, рассматривая цифры, мы видим, что колебания учетов на первом участке очень незначительны, следовательно, мы вправе ожидать, что размах этих колебаний в первом приближении отображает изменчивость численности насекомых на всем участке. Что касается второго участка, то здесь – явная неоднородность: три пробы с малым числом насекомых и одна с чрезвычайно большим, что мы имеем право приписать какому-то непредвиденному обстоятельству: или ошибке в учете, или случайному скоплению насекомых, т. е. таким факторам, которые сильно обесценивают значение средней арифметической.

Почему же помогает введение средней геометрической? Потому что средняя геометрическая отображает среднюю арифметическую от логарифмов первоначальных чисел, а при этом сильно снижается влияние на среднюю резких крайних уклонений. Это проверено на большом материале английского энтомолога Вильямса, собиравшего в течение восьми лет при помощи автоматических ловушек насекомых на Ротамстедской станции. Поэтому сейчас для оценки учетов численности чрезвычайно широко применяют различные преобразования: замену чисел логарифмами или эквивалентными баллами и проч.”

Приведем еще один пример исчисления средних, с учетом цели определения средней тенденции, хорошо известный в математической статистике (см., например, [Розенберг с соавт., 1993, с. 24]). На скамейке сидят пять человек. Двое из них – бродяги, имущество которых оценивается в 25 центов у каждого, третий – рабочий с доходом в $2000, четвертый владеет $15 000, а пятый и вовсе миллионер с доходом в $5 000 000. Таким образом, мода равна 25 центам и характеризует 40% выборки, медиана равна 2000, средняя геометрическая – примерно, 280, а средняя арифметическая – 1 003 400,1 доллара. Если взять за основу моду, то актив этих соседей на скамейке должен быть оценен в 1-1,5 доллара (что обидно для всех, кроме бродяг); остальные оценки выглядят еще хуже. Таким образом, очевидно, что не существует средней меры для характеристики этой странной группы.

Наиболее часто в биологических исследованиях используется шкала отношений, в которой измеряются так называемые количественные признаки. Эта традиция идет, вероятно, из физики, где считается, что переход от количественных шкал к порядковым сопровождается существенной потерей информации. Для биологии с ее иным масштабом ошибок измерений подобное утверждение является скорей предрассудком, нежели научно обоснованным убеждением. На наш взгляд, в биологическую практику следует шире внедрять порядковые шкалы, которые не предъявляют ограничивающих требований к точности измерения, законам распределения и являются более "помехоустойчивыми". С математической точки зрения "балльные" оценки ничем принципиально не отличаются от "числовых", разве что математическая техника работы с ними значительно проще [Constandse-Westermann, 1972]. Но в силу укоренившихся традиций в биологических исследованиях значительно чаще безосновательно вычисляют среднее, дисперсию, эксцесс, нежели медиану. Во многом такое нежелательное положение вещей объясняется просто недостаточным методическим распространением математического аппарата, позволяющего обрабатывать результаты измерений по частным шкалам порядка и некоторым лагом в динамике исторического развития статистики и биологии. Впрочем, это мнение нельзя рассматривать как догму, поскольку очень многое зависит как от характера решаемой задачи, так и от особенностей обрабатываемых данных.

Дальше К следующему разделу Назад К предыдующему разделу Начало К началу разделу Конец К концу разделу Список К оглавлению