Дальше К следующему разделу Назад К предыдующему разделу Конец К концу разделу Список К оглавлению

5. Введение в "индексологию"; алгоритмы получения комплексных показателей

В экологии не существует таких объектов и не изобретено таких “линеек”, совмещение которых позволило бы путем считывания чисел со шкалы определить, например, объем валовой продукции экосистемы, ее "биоценозное качество" или темпы сукцессионных изменений. Экологические измерения почти всегда косвенные или производные. Экологические величины определяются путем расчета индексных выражений, формула исчисления которых задается некоторой субъективно определенной схемой (операциональным определением). Более того, первичные измерения, имеющие в физике фундаментальное значение (счет, физические измерения веса, объема, длины особей и т.д.), в экологии, как правило, экологического характера не имеют. Сравниваемый характер они приобретают лишь после своей свертки в экологические величины, характеризующие объект на уровне популяции, трофической группы или биоценоза в целом.

В целом ряде областей науки при сопоставлении каких-либо данных, характеризующих явление или процесс во времени и в пространстве, широкое употребление нашли индексы – относительные статистические величины, показывающие, насколько уровень изучаемого явления в данных условиях отличается от уровня того же явления в других условиях. Они олицетворяют попытку относительно просто и практически целенаправленно рассчитать и соизмерить сложные объекты или системы, состоящие из непосредственно несопоставимых элементов. Полученные на основе индексного метода расчетные показатели могут использоваться в более сложных математических моделях для характеристики развития анализируемых процессов во времени или по территории, для выявления структуры, взаимосвязей и роли отдельных факторов в динамике сложных систем.

Остановимся на способах вычисления так называемых общих индексов, которые представляют собой вектор значений результирующего комплексного показателя, полученного в результате информационной свертки (редукции) некоторого подмножества индивидуальных показателей. К настоящему времени практически общеупотребительной схемой такого обобщения данных в экологии и экономике являются методы, основанные на гипотезе аддитивности индивидуальных вкладов. Получаемый таким образом комплексный показатель представляет собой вектор той же размерности, что и базовый, каждый i-й компонент которого вычисляется по одной из следующих формул (алгоритм "Суммация"):

где Bij - компоненты j-го вектора, порождающего подмножества из p исходных показателей, выраженные в нормированной шкале; Kj - весовые коэффициенты, отражающие относительную важность j-го показателя в конструкции обобщенного показателя. Множитель Kj представляет собой произвольное положительное или отрицательное число, задаваемое методами экспертных оценок. В состав порождающего подмножества могут входить как исходные, так и ранее синтезированные обобщенные показатели. Формулы являются взаимно приводимыми: например, если принять Kj =1, то комплексный показатель, рассчитанный по формуле "взвешенная сумма" будет равен простой сумме баллов исходных показателей.

В некоторых случаях используется мультипликативная модель получения комплексного показателя, например: , которая легко сводится к аддитивной путем логарифмирования исходных переменных.

Однако уместен вопрос: насколько справедлива гипотеза аддитивности применительно к экологическим показателям? По природе отображения предметной области индивидуальные показатели могут быть отнесены к двум основным типам: экстенсивные, или объемные, и интенсивные, или относительные.

Экстенсивные показатели в свою очередь обычно имеют смысл запаса или потока. Величины типа запаса регистрируются на конкретный момент времени и имеют элементарные единицы измерения: экземпляр, тонна, джоуль, метр и т.д. Примерами могут быть накопление гумуса в почве, количество аккумулированной энергии, объем популяции или видовая плотность. Величины типа потока определяются только за конкретный период времени и имеют размерность “объем в единицу времени”: продукция в день или за вегетативный период, количество поступающей энергии в час, количество изымаемых из экосистемы биологических ресурсов (например, вылов рыбы) и т.д. Величины запаса и потока жестко связаны между собой:

Sь[v] + Pi [v/t]t = Se[v] + Po [v/t]t,

где Sь и Seзапасы на начало и конец периода (v — единица измерения), Pi и Р0потоки по увеличению и уменьшению запаса (t — период). В частности, это соотношение лежит в основе формирования таблиц материально-энергетического баланса. По нашему мнению, нет никаких оснований для отклонения гипотезы аддитивности вкладов для экстенсивных показателей. Действительно, использование простой суммы биомасс отдельных составляющих сообществ дает общую биомассу живых организмов в водоеме, взвешенная на ПДК сумма выбросов загрязняющих веществ в атмосферу достаточно адекватно оценивает общий уровень ее загрязнения и т.д.

Интенсивные показатели являются отношениями экстенсивных или интенсивных величин. Эти индексы могут иметь разное содержание, разную размерность или быть безразмерными, что определяется формулой их расчета. В подавляющем большинстве случаев для получения относительных показателей пытаются "разделить одно на другое": такие интенсивные величины размерности не имеют (т.е. выражаются в долях, процентах, промилле и т.д.). К ним относятся темпы прироста, коэффициенты пространственного сравнения, показатели ценозной и территориальной структуры. Например, в экологии известны:

Вряд ли можно отрицать полезность и объективность относительных индексов, если их автор точно знает, "что на что поделить", какие данные при этом использовать и что сравнивать. Однако, как доказывает репрезентативная теория измерений, такие показатели являются, как правило, неаддитивными и их агрегирование нельзя проводить путем расчета средневзвешенных величин. Пусть, например, в некотором регионе имеется аномально высокая смертность от какого-нибудь эпидемического заболевания (скажем, атипичной пневмонии в размере 10%). Предположим, что в том же регионе отсутствует смертность от некоторых других инфекционных заболеваний (укуса мухи цеце, желтой тропической лихорадки и "коровьего бешенства"). Нетрудно предположить, что комплексный показатель, равный средней заболеваемости (2.5%), не будет адекватно отражать реальный уровень эпидемиологической обстановки в регионе.

Можно привести много других примеров того, как "осредняя" несколько исходных показателей и превращая их в "интегральный" индекс, мы неизбежно сводим все множество информационно насыщенных сигналов к некоторому средневзвешенному узкополосному уровню ("обрезаем все неровности, превращая мир данных в хорошо подстриженную лужайку"). Это особенно характерно для оценки градаций экологического состояния изучаемого объекта по всему имеющемуся множеству показателей. Для состояния, характеризуемого как "экологическая катастрофа", вполне достаточно, чтобы всего лишь один из анализируемых компонентов превысил летально опасный уровень загрязнения. Если, например, все остальные показатели находятся на безопасном уровне воздействия, то комплексный индекс, построенный с использованием гипотезы аддитивности, вполне может оценить текущую экологическую обстановку как вполне стабильную.

Другим возможным вариантом синтеза комплексных показателей является метод оценки расстояния до критического звена. Пусть, например, установлено, что на всем множестве объектов (в случае ЭИС REGION - пространственно ограниченных участков территории) имеется "наихудший эталон" – многомерная точка, для которой по анализируемому набору исходных показателей имеют место наихудшие значения, из всех встречающихся, с точки зрения благоприятности условий окружающей среды. Тогда значение комплексного показателя для всех остальных точек может быть интерпретировано как функция расстояния от данного объекта до выделенного "наихудшего эталона". По совершенно аналогичному принципу может быть определен "наилучший эталон" и найден вектор расстояний от каждой точки до найденного экстремума. Если, например, использовать в качестве метрики пространства расстояние по Евклиду, то будет подчеркнуто влияние отдельных координат, имеющих аномально большие разности, поскольку они возводятся в квадрат.

В общем случае поиск "крайних точек" в многомерном пространстве является нетривиальной оптимизационной задачей. Рассмотрим два эвристических алгоритма, используемых в ЭИС REGION для расчета комплексных показателей с использованием концепции расстояний. Внутреннее содержание этих алгоритмов основывается на том обстоятельстве, что в ходе преобразования исходных показателей в нормированную шкалу (см. раздел 3) учитывается их взаимосвязь с понятием "экологическое состояние", т.е. для всех переменных при изменении их значений от 1 до 6 прогнозируется снижение качества окружающей среды.

Первый алгоритм (процедура "Свертка") основан на использовании методов факторного анализа. При этом все подмножество обобщаемых показателей свертывается к двум главным компонентам и многомерное облако объектов проецируется на факторную плоскость. Наихудшая критическая точка соответствует участку, расположенному в верхнем правом углу двухмерной диаграммы факторных оценок, а наилучшая краевая точка - в левом нижнем углу (см. рис. 17). Значение комплексного показателя может быть определено, например, как взвешенное расстояние от смещенного начала координат до каждой анализируемой точки:

;(5.2)

где fi1 и fi2 - координаты i-го анализируемого региона в пространстве двух главных компонент, f1min и f2min - минимальные значения соответствующих факторных оценок, l 1 и l 1 - значения собственных чисел.

Рис. 17. Отображение территориальных единиц Волжского бассейна в пространстве двух главных компонент после редукции 11 медико-статистических показателей (обозначения те же, что и на рис. 8)

Второй алгоритм (процедура "Оценивание") осуществляет выборку из базы данных по каждому j-му обобщаемому показателю значений минимума Xmin и максимума Xmax. Далее реализуется стандартная процедура вычисления расстояний от каждого i-го участка до Xmin и Xmax по евклидовой метрике:

и .

На основании этих величин, а так же расстояния

,

осуществляется проецирование координат каждого участка на отрезок [Xmin ¸ Xmax]:

;(5.3)

Комплексные показатели, полученные по любой из описанных трех процедур, подвергаются стандартному преобразованию в нормированную шкалу, сохраняются в базе данных и, наряду с другими индивидуальными показателями могут быть использованы в дальнейшей обработке методами статистического моделирования или отображены на картограмме.

Одной из важнейших характеристик любых эколого-экономических моделей является вопрос их адекватности. К сожалению, специфика предметной области не позволяет использовать активный эксперимент и интерпретировать рассогласование модельных и экспериментальных данных как признак неадекватности некоторых из принятых аксиом. С другой стороны, для одного и того же эколого-экономического явления или процесса можно, как правило, составить много возможных моделей или много разновидностей одной базовой модели. Поэтому необходимы какие-то дополнительные условия, которые позволяли бы из множества возможных моделей и математических методов выбрать наиболее подходящие. В качестве одного из подобных условий обычно выдвигается требование устойчивости метода анализа данных относительно исходных допустимых отклонений, предпосылок модели или условий применимости метода.

Предположим, как это сделано в монографии [1], что имеются исходные данные, на основе которых принимаются решения, а способ переработки (отображения) исходных данных в решение назовем моделью. Таким образом, с общей точки зрения модель - это функция, переводящая исходные данные в решение, причем конкретный способ перехода особенного значения не имеет. Отметим, что в большинстве случаев исследователей и практических работников, как правило, мало интересует тот модельный формализм, который был использован при выработке решения. Вместе с этим, очевидно, что предлагаемые решения формулируются в условиях неполноты информации и допущений методов моделирования, поэтому более важны какие-то заключения относительно устойчивости полученных моделей к этим допустимым неопределенностям. Общая схема оценки чувствительности и устойчивости статистических процедур подробно представлена в цитированной монографии.

Другим способом повышения устойчивости решений является формирование коллектива моделей-предикторов, эффективность которого практически всегда оказывается значительно выше любого из его членов [2-4]. При этом очевидна аналогия с методами коллективного решения, столь эффективно использующимися в обществе [5-6]. Структурные связи в коллективе выбираются таким образом, чтобы положительные свойства той или иной индивидуальной модели дополняли друг друга, а отрицательные - компенсировались (т.е. срабатывал бы эффект системности типа "целое больше суммы своих частей").

В разделе 4 мы попытались на вербальном уровне оценить устойчивость различных разбиений территориальных единиц Волжского бассейна на классы. Рассмотрим теперь на конкретном примере устойчивость получаемых обобщенных показателей в зависимости от конкретного алгоритма комплексации. Поскольку основной задачей разработанной ЭИС является визуализация и анализ взаимной предупорядоченности участков территории по сумме анализируемых переменных, абсолютные значения комплексных показателей и характер их распределения важен нам лишь настолько, чтобы обеспечить робастное отнесение точек к одним и тем же диапазонам (баллам) стандартной нормировочной шкалы.

Выделим в базе данных по Волжскому бассейну 11 медико-статистических показателей (общая заболеваемость, канцерогенные новообразования, болезни системы кровообращения, органов дыхания, пищеварения на 1000 чел. в 2001 г. и т.д.) и рассчитаем тремя различными алгоритмами комплексный показатель уровня заболеваемости, обобщающий представленные данные "одним числом":

а) По первому алгоритму "Суммация" осуществим простое суммирование баллов стандартной нормированной шкалы по формуле (5.1).

б) В соответствии со вторым алгоритмом "Свертка" выполним редукцию 11 исходных показателей к двум главным компонентам (см. рис. 16), которые в этом конкретном случае объясняют свыше 64% имеющегося статистического разброса. Расчет комплексных показателей проведем по формуле (5.2).

в) По третьему алгоритму "Оценивание" обобщение индивидуальных показателей выполним по формуле (5.3), определяющей положение каждой многомерной точки внутри "минимаксного облака".

Для сопоставления полученных результатов преобразуем рассчитанные комплексные индексы в стандартную 6-балльную шкалу и определим для каждой территориальной единицы ее ранги - порядковые номера в отсортированных списках, упорядоченных по возрастанию результирующего показателя по каждой использованной версии (см. таблицу 2)

Таблица 2

Значения комплексных показателей, рассчитанных на основании обобщения 11 медико-статистических признаков тремя использованными алгоритмами (Балл - значение показателя в стандартной нормированной шкале, СКО - сумма квадратов отклонений от среднего балла)

Регион

Алгоритм "Суммация"

Алгоритм "Свертка"

Алгоритм "Оценивание"

СКО

Балл

Ранг

Балл

Ранг

Балл

Ранг

Башкирия

1

1

1

1

1

1

0

Костромская

1

2

1

4

1

3

0

Татарстан

1

3

1

2

2

8

0.67

Саратовская

1

4

1

3

2

6

0.67

Астраханская

2

5

2

6

2

5

0

Тульская

2

6

3

10

3

9

0.67

Мордовия

2

7

2

5

1

4

0.67

Рязанская

2

8

3

12

1

2

2

Нижегородская

3

9

3

9

3

11

0

Московская

3

10

4

14

3

12

0.67

Кировская

3

11

3

11

2

7

0.67

Ивановская

3

12

5

17

3

10

2.67

Волгоградская

4

13

4

13

5

20

0.67

Тверская

4

14

4

15

4

14

0

Марийская

4

15

2

7

5

17

4.67

Калужская

4

16

4

16

4

13

0

Чувашия

5

17

2

8

4

15

4.67

Ульяновская

5

18

5

19

5

18

0

Пензенская

5

19

5

18

4

16

0.67

Ярославская

5

20

5

20

6

23

0.67

Удмуртия

6

21

6

21

6

21

0

Самарская

6

22

6

22

5

19

0.67

Владимирская

6

23

6

23

6

24

0

Пермская

6

24

6

24

6

22

0

Представленные результаты свидетельствуют о вполне очевидной устойчивости решений, мало зависящих от типа алгоритма. Основываясь на использовании коэффициента корреляции Спирмена, ранговые последовательности территориальных единиц, сформированных разными методами, имеют высокий уровень сходства: от 0.8 между алгоритмами 2 и 3 до 0.91 между алгоритмами 1 и 3. Нулевая гипотеза, формулируемая как "нет корреляции между выборками", отклоняется с высоким уровнем значимости. В 88% случаях рассчитанные комплексные показатели либо полностью совпадают, или имеет место частный сдвиг в соседнюю градацию.

Литература

  1. Орлов А.И. Устойчивость в социально-экономических моделях. - М.: Наука, 1979. - 296 с.
  2. Багров Н.А. О комплексном методе прогнозов // Метеорология и гидрология. - 1962. - № 4. C. 14-21.
  3. Жуковский Е.Е., Брунова Т.И. Статистические методы оптимального комплексования альтернативных прогнозов // Применение статистических методов в метеорологии. - М.: Гидрометеоиздат, 1978. - C. 40-50.
  4. Розенберг Г.С., Шитиков В.К., Брусиловский П.М. Экологическое прогнозирование (Функциональные предикторы временных рядов). – Тольятти: ИЭВБ РАН, 1994а. – 182 с.
  5. Растригин Л.А., Эренштейн Р.Х. Метод коллективного распознавания. – М.: Энергоатомиздат, 1981. – 80 с.
  6. Льюс Р.Д., Райфа Х. Игры и решения. - М,: Изд-во иностр. лит., 1961. - 642 с.

Дальше К следующему разделу Назад К предыдующему разделу Начало К началу разделу Список К оглавлению