Глава 2. Методы математического моделирования: Оценка качества водных экосистем

Дальше

Назад

Начало

Конец

Список

2.7. Оценка качества водных экосистем по многомерным эмпирическим данным

Мем № 18: “Каковыми бы сложными не были состав элементов, структура взаимосвязей или материально-энергетические процессы в реальной экосистеме, все они, в конечном итоге, сводятся для наблюдателя всего к двум показателям: численности и биомассе особей отдельных видов, измеренных в пространственно-временном аспекте. Роль гидробиолога состоит в том, чтобы по этим двум показателям восстановить всю сложность реального мира, используя свой опыт и "арсенал" математических формул”

[Авторы настоящей книги; предлагается впервые].

Общая постановка задачи

Несмотря на то, что в нашей стране нет общепринятой системы оценки качества вод по гидробиологическим показателям [Винберг, 1979а], основной задачей классической гидробиологии остается таксация водоемов по степени загрязнения. Основные принципы такой оценки в конечном итоге сводятся к следующим формальным аксиоматическим предпосылкам, без выполнения которых эта задача не имеет смысла.

Пусть "качество вод" – некоторая внешняя характеристика водоема, оценивающая возможность его использования в тех или иных практических целях, которая может быть представлена шкалой некоторого непрерывного или дискретного показателя Y. Предположим, что заранее установлены сущность и способ измерения (расчета) этого критерия. Для определенности предположим, что величина Y возрастает с уменьшением качества вод.

Структурные и функциональные характеристики водных биоценозов являются важными индикаторами "качества вод", иными словами, предполагается некоторая статистически значимая стохастическая связь между величиной Y и некоторой совокупностью гидробиологических измерений.

Структура биоценоза может быть достаточно адекватно описана двумя классами переменных: показателями обилия в пространстве видов X_вi (i = 1,2,…,n_в ) и некоторым множеством n_и обобщенных индексов X_иj (j = 1,2,…,n_и ), которые являются в конечном итоге функциями того же обилия – численности и биомассы.

Состоятельная и эффективная оценка показателя "качества вод" Y может быть рассчитана с использованием следующей модели, использующей оба класса переменных (для сокращения формы записи приводится ее линейная интерпретация):

.(2.5)

где: l _вi и l _иj – найденные коэффициенты статистической модели, b – свободный член.

Величины l _вi при неизвестных X_вi в уравнении (2.5) играют роль "индикаторных валентностей": большие положительные значения связаны с чувствительными видами-индикаторами воды высокого качества, отрицательные значения (< 0) – с видами, характерными для загрязненных водоемов, а коэффициенты, близкие к нулю – с эврибионтными видами, не являющимися индикаторами.

Подмножество обобщенных индексов X_иj может включать любые, в том числе, такие общепризнанные показатели как информационный индекс Шеннона, биотический индекс Вудивисса, составляющие функционально-энергетического баланса, сапробиологические показатели, коэффициенты, основанные на учете индикаторных групп гидробионтов (олигохет, хирономид и др.). Единственным критерием для включения индекса в модель является его предполагаемая информативность, т.е. возможность учесть при анализе данных новые информационные аспекты, не содержащиеся в явном виде в исходном пространстве видов, а также использовать в конкретных случаях анализа весь ретроспективный опыт и закономерности, выявленные исследователями на водоемах других регионов. В частности, в подмножество обобщенных индексов могут входить абсолютные или относительные показатели обилия отдельных трофико-таксономических групп (см. главу 4).

Статистическое моделирование, всегда основанное на апостериорной информации, предполагает наличие обучающей выборки: таблицы с эмпирическими данными, где каждой k-й строке {x₁, …, x_i, …, x_n} поставлено в соответствие строго определенное значение показателя качества y_k . Если этот показатель измерен в непрерывных шкалах, то решается задача множественной регрессии. Если y_k имеет смысл класса качества и представлен шкалой наименований или порядковой шкалой, то решается задача распознавания образов. В этом случае обучающая последовательность представляет собой таблицу, разбитую на L непересекающихся подмножеств строк, причем любому из L классов принадлежит не менее одного объекта. Содержательный смысл задаваемой системы классификации {у₁, у₂, …, y_L} не имеет никакого значения для последующего изложения и может быть вполне произвольным (например: любые градации сапробности, токсобности, классов качества вод, типов водоемов, природно-климатических зон и т.д.) Можно упомянуть особый случай представления класса качества y_k в бинарной (альтернативной) шкале измерения, когда используются лишь две градации, например, "плохое качество / хорошее качество".

С точки зрения общих концепций классификации и прогнозирования, каких-либо четких отличий между регрессионным анализом и распознаванием образов нет. Приведем, в частности, обобщенную формулировку задач статистики для таблицы наблюдений Х, с предельной ясностью сделанную Г.С. Лбовым [1981], который выделил четыре классические постановки:

распознавание образов (предсказание для объекта значения некоторого его целевого признака, выраженного в шкале наименований);

регрессия (предсказание значения числового признака для объекта);

динамическое прогнозирование значения числового признака объекта, использующее временные измерения значений этого же признака (анализ временных рядов);

автоматическая группировка объектов (кластерный анализ).

Каждая из перечисленных постановок сводится, в сущности, к единой задаче заполнения пропусков в таблице данных. При автоматической группировке объектов в таблицу добавляется новый столбец, содержащий информацию о разбиении всего множества объектов на группы схожих. Для иных постановок прогнозируются неизвестные значения признаков у тех объектов, где имеется пропущенная информация (т.е. смысл задачи заполнения пропусков является эквивалентной классическому восстановлению неизвестных функциональных зависимостей по априори неполной таблице экспериментальных данных).

Процедуры многомерного статистического анализа сводятся к идентификации математических моделей, отражающих состояние объекта. Идентификация – это:

процесс восстановления функции условного математического ожидания моделируемой функции объекта Y на основе ее предполагаемой стохастической связи с набором признаков (для задачи множественной регрессии);

формирование решающих правил или сравнение образа объекта с набором образов, уже имеющихся в системе идентификации (для задачи распознавания образов).

Задача идентификации уравнений регрессии в прикладном смысле сводится к расчету и последующему анализу модели (2.5), т.е. выбору комплекса информативных переменных, наилучшим образом объясняющим существующие закономерности (структурная идентификация), подбору оптимальных коэффициентов уравнения или частных выражений для составляющих компонент (численная и функциональная идентификация).

Любая гидробиологическая среда представляет собой большой, сложный, слабо детерминированный и эволюционирующий объект исследования. Поэтому, как показывает практика, предположения о линейности аппроксимирующей функции (2.5), как правило, лишены оснований. Теория самоорганизации моделей показывает, что огромное большинство процессов в природе может быть описано, например, в виде полиномов высокой степени, являющихся частным случаем обобщенного полинома Колмогорова–Габора [Габор, 1972; Ивахненко с соавт., 1976]:

.(2.6)

Число членов полного полинома равно , где m – число переменных, q – степень полинома, и уже при n=q=7 достигает 3600. Поэтому основная задача моделирования сложных систем с использованием регрессионных уравнений заключается в том, чтобы исключить в полиноме (2.6) подмножество "лишних" неинформативных коэффициентов и сохранить необходимое и достаточное сочетание "объясняющих членов". Сложность синтезированной модели будет оптимальной, если необходимая адекватность обеспечивается при минимальном количестве составляющих ее элементов [Эшби, 1959].

Для реализации этих условий необходим набор алгоритмов и методов построения различных эмпирических моделей прогнозирования (2.5), который бы удовлетворял следующим условиям:

достаточно высокая вычислительная эффективность, позволяющая получить работоспособные модели при разумных ресурсных издержках;

отсутствие определяющих ограничений на функцию распределения данных;

обеспечение возможности обработки разнотипных экспериментальных данных (без сведения всех признаков к одной шкале) и инвариантность к допустимым преобразованиям шкал признаков;

робастность и технологичность при наличии пропусков в таблице, а также в случае, если число измеренных признаков n значительно превышает число объектов m;

простота получения результата и инвариантность к конкретной проблемной области.

В этих условиях методы традиционной параметрической статистики не всегда могут быть работоспособны, поскольку требуют либо ощутимого объема исходных данных, либо некоторых предположений о виде функций распределения. Определенную альтернативу им составляют алгоритмы распознавания образов.

Методы распознавания образов

Как отмечалось выше, реальные гидробиологические объекты отличаются друг от друга какими-либо свойствами, но в то же время, многие из них обладают и некоторой общностью, что позволяет объединять объекты в классы. В математической литературе часто используется тождественное “классу” понятие “образа” и многие задачи классификации объединены под названием "проблемы распознавания образов". Наиболее удачно смысл этого термина сформулирован Н.Г. Загоруйко [1972]: “Под образом будем понимать наименование области в пространстве признаков, в которой отображается множество объектов или явлений реального мира”.

Понятие “образа” может быть в разной степени абстрактным по отношению к изучаемым предметам и явлениям. Например, в объективной реальности не существует "экосистемы вообще", а существуют только отдельные измерения, наделенные некоторыми общими свойствами и объединенные исследователем в некоторый образ "экосистема". В нашем случае "экосистемой" можно назвать и некоторую небольшую географическую общность точек наблюдения (створ, станция), и произвольный участок реки, и отдельную реку или некоторую их совокупность, и весь Волжский бассейн в целом. В рамках тех формально-логических определений "экосистемы", которые существуют в настоящее время, корректность перечисленных утверждений нельзя ни доказать, ни опровергнуть (что вытекает из теоремы о "неполноте" К. Гёделя).

В рассматриваемом случае классы эквивалентности с той или иной степенью обоснованности задаются самим исследователем, т.е. рассматривается задача "распознавания с учителем", что отличает ее от описанного выше кластерного анализа. При этом выделяемые самостоятельные единицы ("экземпляры") образов группируются на основе некоторых содержательных представлений или используется внешняя дополнительная информация о сходстве и различии объектов в контексте решаемой задачи (например, постулируются образ буквы “А”, границы реки Сок или в отдельный "грязный" класс выделяются измерения с БПК₅ > 3).

Предтечей математических методов распознавания образов явился дискриминантный анализ, предложенный в 1936 г. Р. Фишером (R. Fisher), – классическая ветвь биометрии, которая уже более 60 лет находит применение в самых разных областях биологической систематики и медицинской диагностики [Урбах, 1964; Дуда, Харт, 1978; Кравцов, Милютин, 1981; Айвазян с соавт., 1989; Ким с соавт., 1989]. Этот вид анализа обобщает несколько тесно связанных статистических процедур, относящихся к подмножеству линейных методов, поскольку модель классификации линейна относительно дискриминантных функций и напоминает множественную линейную регрессию. С другой стороны, основная идея дискриминантного анализа заключается в том, чтобы определить, отличаются ли совокупности по среднему значению линейной комбинации исходных переменных, и затем использовать эту комбинацию, чтобы предсказать для новых членов их принадлежность к той или иной группе. Поставленная таким образом задача о дискриминантной функции может быть сформулирована как задача многомерного дисперсионного анализа (МANOVA).

Множество алгоритмов распознавания образов, при всей их несхожести, методически основаны на одной предпосылке – гипотезе компактности [Айвазян с соавт., 1989; Кольцов, 1989], т.е. “в используемом пространстве признаков измерения, принадлежащие одному и тому же классу, близки между собой, а измерения, принадлежащие разным классам хорошо разделимы друг от друга”. Существуют разные версии классификации алгоритмов распознавания, предлагаемые Ю.Л. Барабашем с соавторами [1967], Л.Т. Кузиным [1979], П. Уинстоном [1980], В.И. Васильевым [1983], А.Л.Гореликом и В.А. Скрипкиным [1984], Я.З. Цыпкиным [1984] и др. Например, в работах Е.В. Луценко [1996, 2002] используется типология методов распознавания образов на основе двух основных способов представления знаний:

интенсиональное представление – в виде схемы связей между признаками;

экстенсиональное представление – с помощью описаний конкретных объектов.

Обобщенные выводы из этого детального обзора методов распознавания мы представили в табл. 2.3, хотя не во всем согласны с излишне категоричными мнениями автора о недостатках анализируемых алгоритмов.

Обзор методов автоматической классификации применительно к проблемам геоботаники был выполнен также одним из соавторов книги [Розенберг, 1977].

Таблица 2.3

Классификация методов распознавания образов; области их применения, наличие ограничений и недостатков [Луценко, 1996]

Классификация методов распознавания		Область применения	Ограничения (недостатки)
Методы, основанные на операциях с признаками (интенсиональные методы)	Методы, основанные на оценках плотностей распределения значений признаков	Задачи с известным распределением (как правило, нормальным), необходимость набора большой статистики.	Необходимость перебора всей обучающей выборки при распознавании, высокая чувствительность к репрезентативности обучающей выборки и артефактам.
	Методы, основанные на предположениях о классе решающих функций	Классы должны быть хорошо разделяемыми, система признаков - ортонормированной	Должен быть заранее известен вид решающей функции. Невозможность учета новых знаний о корреляциях между признаками.
	Логические методы	Задачи небольшой размерности пространства признаков.	При отборе логических решающих правил (конъюнкций) необходим полный перебор. Высокая вычислительная трудоемкость.
	Лингвистические (структурные) методы	Задачи небольшой размерности пространства признаков.	Задача восстановления (определения) грамматики по некоторому множеству высказываний (описаний объектов), является трудно формализуемой.
Методы, основанные на операциях с объектами (экстенсиональные методы)	Метод сравнения с прототипом	Задачи небольшой размерности пространства признаков.	Высокая зависимость результатов классификации от меры расстояния (метрики).
	Метод k-ближайших соседей	Задачи небольшой размерности по количеству классов и признаков.	Высокая зависимость результатов классификации от меры расстояния (метрики). Необходимость полного перебора обучающей выборки при распознавании. Вычислительная трудоемкость.
	Алгоритмы вычисления оценок (голосования) АВО	Задачи небольшой размерности по количеству классов и признаков.	Зависимость результатов классификации от меры расстояния (метрики). Необходимость полного перебора обучающей выборки при распознавании. Высокая техническая сложность метода.
	Коллективы решающих правил	Задачи небольшой размерности по количеству классов и признаков.	Очень высокая техническая сложность метода, теоретические проблемы, как при определении областей компетенции частных методов, так и в самих частных методах.

Методы, основанные на оценках плотностей распределения значений признаков, заимствованы из классической теории статистических решений [Кендалл, Сьюарт, 1973], в которой объекты исследования рассматриваются как реализации многомерной случайной величины, распределенной в пространстве признаков по какому-либо закону [Афифи, Эйзен, 1982; Горелик, Скрипкин, 1984]. Эта группа методов использует ту или иную интерпретацию формулы условных вероятностей Т. Байеса (Т. Bayes) и имеет прямое отношение к методам дискриминантного анализа.

В группе методов, основанных на предположениях о классе решающих функций, считается известным общий вид уравнения разделяющей поверхности и задан функционал качества разбиения [Аркадьев, Браверман, 1971; Дуда, Харт,1978; Кольцов, 1989]. Самыми распространенными являются представления решающих функций в виде линейных и обобщенных нелинейных полиномов, что позволяет говорить об аналогии этих методов с частными реализациями регрессионного анализа. Функционал качества решающего правила обычно связывают с ошибкой классификации. Наиболее эффективными методами этой группы являются алгоритм построения оптимальной разделяющей гиперплоскости – "обобщенного портрета" [Вапник, Червоненкис, 1974] и разделение классов потенциальными функциями [Айзерман с соавт., 1970; Ту, Гонсалес, 1978].

Логические методы распознавания образов базируются на аппарате булевой алгебры логики и позволяют оперировать информацией, заключенной не только в отдельных признаках, но и в сочетаниях значений признаков [Горелик с соавт., 1985]. В главе 8 будут представлены результаты использования наиболее распространенного алгоритма этой группы – "Кора" [Бонгард, 1967; Вайнцвайг, 1973], формирующего систему логических решающих правил в виде конъюнкций элементарных событий.

Лингвистические методы распознавания образов основаны на использовании специальных грамматик (т.е. правил построения объектов из "атомарных" элементов), порождающих языки, с помощью которых может описываться совокупность свойств распознаваемых объектов [Фу, 1977; Борисов с соавт., 1982; Горелик с соавт., 1985]. Синтаксические анализаторы, которые представляют полное описание объекта в виде дерева грамматического разбора, устанавливают его синтаксическую правильность, а именно, может ли фиксированная грамматика, описывающая некоторый класс, породить имеющееся описание объекта. В противном случае, объект либо отклоняется, либо подвергается анализу с помощью других грамматик, описывающих другие классы объектов.

В экстенсиональных методах, в отличие от интенсионального направления, каждому изучаемому объекту в большей или меньшей мере придается самостоятельное диагностическое значение. Объекты в указанной группе методов играют роль диагностических прецедентов, при этом роль каждого из них может меняться в самых широких пределах: от главной до весьма косвенного участия в процессе классификации. По своей сути экстенсиональные методы рассматривают измерения как целостные феномены, каждый из которых индивидуален и имеет особенную диагностическую ценность, что определяет высокую эффективность этих методов для "чистого" прогноза. Однако задача восстановления закономерностей поведения объектов и интерпретации связей между варьируемыми переменными (т.е. функция объяснения) является для них трудно формализуемой.

Основными операциями в распознавании образов с помощью методов второй группы являются операции определения сходства и различия объектов. Дальнейшее разделение экстенсиональных методов на подклассы основано на различии в количестве диагностических прецедентов, которые используются для процесса решения: от одного в каждом распознаваемом классе (метод сравнения с прототипом) до полного объема выборки (алгоритмы АВО Ю.И. Журавлева [1978, Журавлев, Никифоров, 1971]). В частности, при классификации неизвестного объекта по методу k-ближайших соседей [Гренандер, 1979, 1981, 1983] находится заданное число (k) геометрически ближайших к нему в пространстве признаков других объектов с уже известной принадлежностью к распознаваемым классам. Дальнейшее решение принимается, например, с помощью простого подсчета голосов.

Так как различные алгоритмы распознавания проявляют себя по-разному на одной и той же выборке объектов, то закономерно встает вопрос о синтетическом решающем правиле, адаптивно использующем сильные стороны этих алгоритмов [Растригин, Эренштейн, 1981; Брусиловский, Розенберг, 1983; Брусиловский, 1987; Розенберг с соавт., 1994]. В коллективах решающих правил применяется двухуровневая схема распознавания. На первом уровне работают частные алгоритмы распознавания, результаты которых объединяются на втором уровне в блоке синтеза. Наиболее распространенные способы такого объединения основаны на выделении "областей компетентности", для которых доказана успешность работы какого-либо частного алгоритма распознавания.

Наряду с формальными методами распознавания образов полное и адекватное развитие в различных областях получили различные эвристические алгоритмы классификации и прогнозирования. Этот подход основывается на трудно формализуемых знаниях и интуиции исследователя, который сам определяет, какую информацию и каким образом нужно использовать для достижения требуемого эффекта распознавания. Примерами таких "авторских" методов являются процедура автоматической классификации геоботанических описаний [Розенберг, 1984] и алгоритм расчета индикаторных валентностей, представленный в главе 8.

Выбор методов многомерного анализа и особенности их реализации

Не только отклик Y модели (2.5), но и варьируемые переменные X_вi, X_иj могут быть измерены в различных шкалах: количественной, порядковой или бинарной (альтернативной). В зависимости от размерности признакового пространства и шкал представления данных, могут быть использованы различные математические методы обработки многомерных наблюдений, каждый из которых имеет свою область и особенности применения. В рамках настоящей монографии мы были не в состоянии детально описать и выполнить расчеты для всех многочисленных алгоритмов параметрической статистики и распознавания образов, поэтому в главе 8 ограничились некоторым "джентльменским" набором, руководствуясь при отборе соображениями популярности, доступности и личными симпатиями. Область применения каждого из использованных методов для различных шкал переменных представлена в табл. 2.4.

Таблица 2.4

Условия применения некоторых математических методов обработки многомерных наблюдений

Наименование метода или алгоритма	Шкала измерения отклика Y			Использование обобщенных индексов	Шкала измерения обилия видов
Наименование метода или алгоритма	Количес- твенная	Поряд- ковая	Альтер- нативная	Использование обобщенных индексов	Количес- твенная	Поряд- ковая	Альтер- нативная
1. Множественный регрессионный анализ	Å			n_и > 0
2. Логистическая регрессия и упорядоченный пробит-анализ		Å	Å	n_и > 0
3. Линейный дискриминантный анализ		Å	Å	n_и > 0
4. Алгоритм вычисления индикаторных валентностей		Å	Å	n_и = 0	Å	Å	Å
5. Построение разделяющей гиперплоскости (метод обобщенного портрета)			Å	n_и = 0		Å	Å
6. Алгоритмы алгебры логики (метод “Кора”)			Å	n_и = 0			Å

При использовании параметрических методов статистики, представленных в табл. 2.4 пунктами 1-3, надежность получаемых результатов может в значительной мере зависеть от характера распределения исходных переменных. При анализе моделей часто используются такие предположения, как равенство дисперсионных матриц, равенство условных вероятностей событий в пределах класса и априорных вероятностей наблюдения классов, равенство функций потерь и т.д. Размерность признакового пространства практически не должна превышать 250-300, иначе могут возникнуть трудности вычислительного характера при матричных преобразованиях.

Как убедительно свидетельствует работа В.Н. Максимова с соавт. [1999], применение методов математической статистики, основанных на стандартном анализе дисперсий и ковариаций, оказывается малоэффективным для оценки причинно-следственных связей в пространстве гидробиологических переменных, которые представляют собой сильно разреженные матрицы большой размерности, заполненные в основном нулями. Поскольку основная часть таксономических групп зообентоса встречается всего в нескольких пробах из ста, нельзя говорить о сколько-нибудь приблизительной нормальности распределения обилия видов: признаковое пространство очень обширно, плохо обусловлено и скорее дискретно, чем непрерывно.

В связи с этим, применение классических параметрических методов 1-3 для обработки таблиц наблюдений в пространстве видов оказалось невозможным и, в качестве переменных моделей, использовались обобщенные индексы или показатели обилия таксонов, объединяющих группы видов. При использовании эвристических и непараметрических методов моделирования 4-6, которые не предъявляют жестких требований к таким свойствам исходных выборок, как нормальность распределения переменных, однородность дисперсий и т.п., имеется возможность детализации признакового пространства до уровня показателей обилия отдельных видов.

Дальше

Назад

Начало

Конец

Список