Дальше К следующему разделу Назад К предыдующему разделу Конец К концу разделу Список К оглавлению

3. Анализ характера распределения показателей и алгоритмы их перевода в нормированные шкалы

Экологические и экономические показатели, составляющие основу информационного обеспечения ЭИС REGION, имеют следующие специфические особенности:

1) До сих пор не выработан строгий и единый перечень количественно измеряемых параметров, однозначно представляющих эмпирическую экологическую систему; и не установлен исчерпывающий перечень операций, которые необходимо провести, чтобы оценить тот или иной определяющий фактор. Поскольку существуют различные формальные подходы к способам измерения продукции биоценозов, экологического разнообразия, идентификации сукцессионных изменений, устойчивости тренда экологической динамики, структурных сдвигов в видовом составе и т.д., то одному и тому же теоретическому понятию, как правило, соответствует несколько операциональных величин, отражающих различные точки зрения.

2) Короткие ряды наблюдений и далеко не всегда экспериментальный характер данных очень затрудняют процесс регистрации показателей и нередко ставят под сомнение научную значимость результатов их измерений. В силу колоссальной пространственно-временной изменчивости биосферных объектов, нет никакой уверенности в том, что имеющиеся выборки отражают реальные процессы. Очень велика роль субъективного фактора: экологические величины формируются в ходе определенной деятельности биологов и характеризуют каким-то образом эту деятельность.

3) Показатели, загружаемые в таблицы баз данных, представлены в самых разнообразных шкалах измерений: номинальных, порядковых и метрических. Показатели, измеренные в метрических шкалах, имеют самые разнообразные единицы измерения, масштаб, точки отсчета и интервалы варьирования.

4) Эмпирические ряды измерений подчиняются самым разнообразным законам распределений, весьма далеким от теоретических нормального или равномерного. Графики зависимостей часто имеют вид стохастических флуктуаций, приближающихся к "белому шуму". Угрожающие масштабы принимает проблема идентификации "выбросов", фильтрации аномальных и восстановления пропущенных значений.

Аналогичные выводы могут быть сделаны и в отношении других разделов базы данных: медико-статистических показателей, описанию промышленного потенциала и сельскохозяйственной продуктивности территориального комплекса. Поэтому флуктуации субъективного порядка, возникающие по перечисленным причинам в массивах входной информации, могут приводить к огромным отличиям получаемых значений измеряемых величин от их действительных значений. В связи с этим, решающее значение для получения адекватных результатов математического моделирования является разработка развитой системы препроцессинга исходных данных.

В статистической обработке данных широко применяется нормировка – то есть линейное преобразование всех значений признаков таким образом, чтобы значения признаков попадали в сопоставимые по величине интервалы:

,

где: xij: – j-ая координата i-го вектора, А и В – некоторые заранее назначенные числа, которые назовем характерными масштабами. Эти числа могут быть определены, исходя из статистических характеристик распределения эмпирических выборок (нормирование по статистикам), либо заданы по некоторым априорным соображениям (нормирование по стандартам). В качестве "стандартов" могут выступать фоновые или критические значения показателя, ПДК, наилучшие и наихудшие "благоприятные" значения и прочие оценки [1-3], лексически связанные с проблемой анализа критических или допустимых нагрузок. Понятийно эти оценки легко воспринимаются, однако отсутствуют методы их корректного вычисления, а существующие отдельные попытки экологического нормирования следует считать субъективными.

В многомерном облаке данных существует несколько масштабов нормирования по статистикам, когда вариационный ряд каждого отобранного показателя преобразуется с использованием выборочных статистических характеристик. Во-первых, это геометрический центр многомерного облака точек данных (т.е. среднее значения всех признаков), квадратный корень из общей дисперсии s , называемый среднеквадратичным отклонением и масштаб R, характеризующий максимальный разброс в облаке данных

, , .

Нормировка всех признаков на R приводит к тому, что все облако данных заключается в шар единичного радиуса, а соответствующая формула предобработки имеет вид:

, где – новые и старые значения векторов признаков.

Если в качестве масштаба выбрана s , то соответствующая формула предобработки (нормировка на “единичную дисперсию”) имеет вид:

. (3.1)

Если выборка может считаться полученной из нормального распределения, то в шаре с центром в радиусом s находится около двух третей от числа точек данных.

Поскольку для экологических данных диапазоны значений для разных признаков очень сильно отличаются друг от друга, то разумно для каждого из признаков применять собственный масштаб, т.е. частные статистики j-го показателя s j, Rj и . Эти нормировки не являются “изотропными”, то есть они сжимают облако данных в некоторых направлениях сильнее, в некоторых – меньше. Однако, несмотря на некоторое нарушение структуры данных (взаимных расстояний), такой подход считается общепринятым.

Возникает естественный вопрос: какая из нормировочных формул предпочтительнее. Например, наиболее популярная линейная нормировка по "минимаксу"

.(3.2)

оптимальна, когда значения переменной плотно и равномерно заполняют интервал, определенный эмпирическим размахом данных. Но подобный "прямолинейный" подход применим далеко не всегда. Так, если в данных имеются относительно редкие выбросы, намного превышающие типичный разброс, именно эти выбросы определят, согласно формулы 3.2, масштаб нормировки. Это приведет к тому, что основная масса значений нормированной переменной сосредоточится вблизи нуля: .

В связи с этим, надежнее ориентироваться при нормировке не на экстремальные значения, а на типичные, т.е. статистические характеристики данных, такие как среднее и дисперсия и вести расчет по формуле (3.1). Однако в этом случае нормированные величины не принадлежат гарантированно единичному интервалу, более того, максимальный разброс значений заранее не известен. Для входных данных статистических моделей это может быть и не важно, но выходные переменные часто используются в качестве эталонов и очень удобно ограничить диапазон их изменения на интервале от 0 до 1. Естественный выход из этой ситуации - использовать для предобработки нелинейное функциональное преобразование данных. Например, преобразование с помощью сигмоидной функции

качественно нормирует основную массу данных одновременно гарантируя, что .

Другим вопросом, представляющим интерес для обсуждения, является формулировка понятий “эквивалентности” и “коэквивалентности” различных формул нормировки. Согласно теореме Б.И. Семкина и В.И. Двойченкова [4], два вектора пронормированных значений и , полученных по различным формулам, эквивалентны, если их компоненты связаны монотонно возрастающей зависимостью j , т.е. = j (). Примером такой функции j является линейное преобразование = a + b × , позволяющее любые пронормированные значения умножить, разделить или сложить с некоторым постоянным числом и при этом предупорядоченность данных нисколько не изменится (меняется лишь масштаб шкалы измерения). Например, легко увидеть, что являются эквивалентными между собой оба вектора пронормированных значений полученных по формулам (3.2) и

где - "наилучшие (или наихудшие) для каждого показателя оценочные значения (например, наиболее благоприятные для целей строительства, сельского хозяйства и др. климатические характеристики, величины углов наклона местности и т. д.)" [5]. Мы не хотим оспорить тезис, что вторая "нормировка дает возможность выразить отклонения всей системы показателей от наилучших или наихудших оценочных значений и тем самым правильнее с содержательных позиций их соизмерить между собой". Однако визуально картограммы показателя, обработанного по обеим формулам нормировки, будут совершенно идентичны.

Однако вернемся к практическим решениям. Введем такое понятие, как нормированная шкала (НШ) показателя, которая характеризуется следущими свойствами:

В рамках текущей версии системы REGION в качестве НШ была принята порядковая шкала, в которой Bmin = 1, а Bmax = Kb, где Kb - размерность шкалы (количество градаций). Из соображений унификации для большинства исходных показателей, измеренных в метрических шкалах, Kb была принята равной 6. Размерность Kb для показателей, изначально измеренных в порядковых или номинальных шкалах, выбиралась каждый раз исходя из специфики нормируемых данных.

Выбор 6-бальной нормировочной шкалы основан на тех же теоретических соображениях, что и традиционные алгоритмы нормировки. Действительно, диапазон варьирования результирующих значений, полученных после преобразования исходных переменных (т.е. размерность Kb), не имеет никакого принципиального значения ни для существа проблемы, ни для характера последующего использования пронормированных выборок в ходе статистического моделирования. Легко видеть, например, что НШ от 1 до 6 легко может быть преобразована в более популярную нормировочную шкалу 0 ¸ 1 по формуле

bi' =(bi - Bmin)/(Bmax-Bmin), где bi' - значение от 0 до 1.

Поскольку так же легко реализуется и обратный переход, все множество нормировочных шкал можно считать эквивалентными.

Другим поводом для обсуждения качества нормировки является возможная потеря точности при переходе от метрической шкалы к порядковой. Однако, как показала практика, погрешность большинства исходных эколого-экономических данных столь велика, что ошибка измерения практически сопоставима с величиной самого натурального показателя. В связи с этим можно предположить, что переход к оценке большинства анализируемых показателей в 6-бальной шкале не приведет к качественным информационным потерям.

Решающим преимуществом НШ в виде стандартной ординальной шкалы являются удобство визуализации пространственного распределения индивидуальных и комплексных показателей на картосхемах изучаемого региона: человеческий глаз уверенно может различать контрастную раскраску карт, спектр которой не превышает 6-8 цветов.

Покажем, что общий принцип, которым следует руководствоваться на этапе нормирования и квантования числовых переменных, состоит в максимизации энтропии входных и выходных переменных. Допустим, что в результате перевода всех данных в числовую форму и последующей нормировки все признаки отображаются в единичном кубе. Задача построения математических моделей заключается в том, чтобы найти статистически достоверные зависимости между входными и выходными переменными. Единственным источником информации для статистического моделирования являются примеры из обучающей выборки. Чем больше бит информации принесет каждый пример - тем лучше используются имеющиеся в нашем распоряжении данные.

Рассмотрим произвольный вектор предобрабатываемых данных: . Среднее количество информации, приносимой каждым примером , равно энтропии распределения значений этого показателя:

Если эти значения сосредоточены в относительно небольшой области единичного интервала, информационное содержание такой компоненты мало. В пределе нулевой энтропии, когда все значения переменной совпадают, эта переменная не несет никакой информации. Напротив, если значения переменной равномерно распределены в заданном интервале, количество информации, вносимой такой переменной, максимально.

В соответствии с изложенным общим принципом, мы должны стремиться к тому, чтобы максимизировать энтропию закодированных данных. В то же время известно, что из всех статистических функций распределения, определенных на конечном интервале, максимальной энтропией обладает равномерное распределение. Применительно к случаю сведения численной шкалы к порядковой (а именно так можно трактовать процесс "квантования" или "баллирования") в ЭИС REGION был принят следующий практический рецепт преобразования переменных. Общий диапазон допустимых значений показателя разбивается на отрезков - по числу классов - с длинами пропорциональными числу примеров каждого класса в исходной выборке: , где - число примеров класса , а - общее число примеров. Центр каждого такого отрезка будет являться численным значением для соответствующего ординального класса (см. рис. 5).

Рис.5. Илюстрация способа кодирования кардинальных переменных с учетом количества примеров каждой категории.

При таком способе “оцифровки” все выделенные классы будут нести примерно одинаковую информационную нагрузку. Выражаясь точнее, перевод признака, измеренного в метрической шкале, в систему порядковых переменных ("баллов") будет сопровождаться наименьшими потерями информации.

Если в ходе анализа установлено, что мы имеем дело с равномерным распределением данных, то естественным способом деления на диапазоны области существования [a, b] анализируемой переменной xq является выделение k одинаковых отрезков. Во всех остальных случаях выделение интервалов осуществляется, исходя из условия равенства площадей фигур, образованных вертикальными секущими от граничных значений до кривой функции плотности распределения f(xq).

Другой проблемой ординации исходных показателей является учет характера связи каждого из них с некоторой целевой функцией обобщенного "экологического состояния". В ряде случаев вывод о причинно-следственной направленности этой связи более или менее бесспорен. Например, логично предположить, что рост любых показателей заболеваемости населения или развитие патологических изменений в органах и тканях живых организмов однозначно свидетельствует об ухудшении экологического состояния. Тогда территориям, имеющим самый низкий уровень заболеваемости, может быть присвоен балл 1, а там, где заболеваемость достигает максимальной отметки - балл 6. В большинстве случаев показатели, отражающие техногенное загрязнение территории, водоемов и воздушного бассейна, "оцифровываются" по аналогичному принципу. Однако, в общем случае можно выделить три основных варианта функциональной связи показателя с обобщенным критерием экологического состояния:

Для некоторых показателей выполнены в разной мере тщательные исследования количественного или, хотя бы качественного характера такой зависимости. Например, на рис. 6 представлено соотнесение диапазона варьирования трех широко известных гидрохимических показателей со шкалой комплексной экологической классификации качества поверхностных вод суши по О.П.Оксиюк и В.Н.Жукинскому [6], состоящей из 9 разрядов. Показаны все три основных варианта функциональной связи измеряемых переменных с этой весьма распространенной обобщенной оценкой экологического состояния водоемов (как и в нашем случае, разряды классификации тем выше, чем ниже качества вод).

Прозрачность, м

Азот аммонийный, мг/л

рН

Биомасса фитопланктона, мг/л

Рис 6. Деление по диапазонам некоторых показателей качества поверхностных вод суши (по оси ординат – разряды качества вод по классификации О.П.Оксиюк и В.Н.Жукинского: 1 - предельно чистые, 2а – очень чистая, 2б – вполне чистая, 3а – достаточно чистая, 3б – слабо загрязненная, 4а – умеренно загрязненная, 4б – сильно загрязненная. 5а – весьма грязная, 5б – предельно грязная)

Наибольшие трудности вызывает анализ показателей, имеющих экологический экстремум. В этом случае деление на интервалы и отчет баллов приходится осуществлять в обе стороны от условного нуля, за который принимается выявленный минимум: например, для показателя pH баллу 1 соответствует диапазон от 6.9 до 7.1, баллу 2 - от 6.1 до 6.9 или от 7.1 до 7.9 , а баллу 6 - менее 5.3 или более 8.7. При этом характер колоколообразной зависимости является скорее правилом, чем специфическим явлением, если принять во внимание основные положения факториальной экологии: закон минимума Либиха и закон лимитирующего фактора Шелфорда [7].

Несмотря на огромное количество имеющейся литературы о влиянии тех или иных поллютантов на особенности жизненных циклов биологических объектов, как отмечал Д.М. Розенберг, “выявленные закономерности основываются, как правило, на косвенных показателях, а не на процедурах, которые предполагают тщательную проверку той или иной гипотезы”. Например, согласно той же классификации О.П.Оксиюк и В.Н.Жукинского, качество воды монотонно ухудшается при росте биомассы фитопланктона (см. рис. 6), однако, мысленно исключив из трофических цепей фитопланктон, мы получим вместо водоема "экологическую пустыню". Другой пример - индекс биологического разнообразия, который традиционно считается сопутствующим гармоничному и устойчивому развитию экосистем, однако в отношении монокультурных агроценозов он свидетельствует лишь о большом количестве сорняков. Трудно определить, скажем, оптимальное количество кроликов, которое должно приходиться на 1 кв. км сельхозугодий: с одной стороны, австралийский опыт свидетельствует о том, что их не должно быть много, а, с другой стороны, кролик - вполне мирное и весьма полезное животное.

Оценка характера зависимости при преобразовании исходных показателей в нормализованную шкалу осушествлялся в ЭИС REGION в ходе специализированной человеко-машинной процедуры, учитывающей:

Сущность формально-аналитических методов нахождения оптимальных диапазонов нормирования показателя заключается в следующем. Пусть нам необходимо преобразовать в НШ последовательность объектов i = 1,2,…,m, обладающих признаком xq , который принимает значения на отрезке [a, b]. Предположим, что в ЭЭС уже существует некоторый другой (ранее загруженный) индивидуальный показатель (или обобщенный комплекс из некоторого их подмножества), который мы можем принять в качестве некоторого эталона экологического состояния. Тогда с помощью этого вектора-эталона каждая величина xqi может быть отнесена к одному из n классов измерений D1, D2, …, Dn , l = 1,2,…,n. Введем разбиение d диапазона существования признака xq [a, b] на некоторое заранее заданное количество интервалов k, границы которых заранее не определены.

Задача состоит в том, чтобы найти такое разбиение d на градации, которое наилучшим образом подчеркивает дискриминирующую сущность исходной априорной классификации измерений D1, D2, …, Dn. Первый алгоритм основан на максимизации информационной меры дивергенции, введенной С.Кульбаком [8], которая имеет смысл средней меры различия двух эмпирических распределений. Метод формализован А.А.Генкиным [9] и является основой "Оболочки Медицинских Интеллектуальных систем".

Обозначим через pj(xq |Ds) частоту попадания значения показателя xq из подмножества { xq }Ds в j-й диапазон ( j = 1,2,…,k ). Тогда по первому алгоритму для двух классов Ds и Dl в качестве наилучшего разбиения диапазона [a, b] на k отрезков выбирается такое, которое максимизирует значение дивергенции Кульбака:

Граничные значения интервалов легко находятся как полусумма смежных отсортированных значений xqi обучающей выборки, принадлежащих разным диапазонам.

В общем случае n классов максимизируется величина:

.

Получаемое таким образом разбиение вместе с вероятностями появления значений признака в соответствующих интервалах pj(xq|Ds) называется интервальной структурой [9].

В.Н. Вапником с соавторами [10] представлен более общий алгоритм нахождения наилучшего разбиения, основанный на минимизации шенноновской энтропии и определяющий как границы диапазонов, так и оптимальное число градаций k.

Пусть существуют условные вероятности принадлежности x к каждому из n классов:

P(D1 | xq), P(D2 | xq), …, P(Dn | xq).

Тогда для каждого фиксированного значения признака xqi может быть определена энтропия как мера неопределенности принадлежности вектора x к тому или иному классу:

Среднее по мере P(xq) значение энтропии есть : .

При разбиении d анализируемого диапазона [a, b] на k интервалов каждая величина численной шкалы xqi будет принимать одно из к значений порядковой шкалы c(1), c(2), c(k). Тогда средняя энтропия может быть записана в виде

Для того, чтобы оценить энтропию H(k), необходимо рассчитать вероятности P(Dl | c(j)) и P(xq = c(j)) по обучающей последовательности, для чего воспользуемся байесовскими оценками:

, (3.3)

где a - константа алгоритма, m - объем обучающей выборки, ml - число элементов l-го класса в выборке, ml (j) - число элементов l-го класса, входящих в j-й диапазон разбиения.

Задача состоит в том, чтобы найти такое разбиение d интервала численной переменной xq [a, b] на градации и определить их число k* , которое наилучшим образом подчеркивает дискриминирующую сущность исходной априорной классификации, поскольку максимизируется количество информации, содержащейся в сообщении о принадлежности вектора x к тому или иному классу:

J(k*) = Hапр - H(k*), (3.4)

где

Представленные алгоритмы реализуются, в той или иной мере, по схеме полного перебора. Например, алгоритм В.Н.Вапника оформлен как процедура многократного дробления-склейки градаций-претендентов, пока не будет найдено разбиение d и число диапазонов k* , доставляющие максимум выражению (3.4). Часто разумно пытаться уменьшить количество градаций k* и после достижения минимума по k функции H(k*), но лишь до тех пор, пока величина J(k*) не уменьшится в (1- d ) раз, где d - параметр алгоритма.

Обоснованность результатов нахождения оптимальных границ диапазонов квантования данных по описанным алгоритмам зависит от качества априорного деления координат преобразуемого вектора на классы, которое повышается по мере наполнения информационной системой данными (смысл самоорганизации).

Литература

  1. Ноулер Л., Хауэлл Дж., Голд Б. и др. Статистические методы контроля качества продукции. – М.: Изд-во стандартов, 1989. – 96с
  2. Воpобейчик Е.Л., Садыков О.Ф., Фарафонтов М.Г. Экологическое нормирование техногенных загрязнений наземных экосистем (локальный уровень). Екатеринбург: Наука, 1994. 280 с.
  3. Шуйский В.Ф., Занцинская Т.П., Петров Д.С. Количественная оценка и нормирование сложных антропогенных воздействий на макрозообентос // Сб. научных трудов ГосНИОРХ – вып.326 – 2000 — С. 137–144 (соавторы,)
  4. Сёмкин Б.И., Двойченков В.И. Об эквивалентности мер сходства и различия // Исследование систем. – Владивосток: ДВНЦ АН СССР, 1973. С. 18-43.
  5. Тикунов B.C. Классификации в географии: ренессанс или увядание? (Опыт формальных классификаций). - Москва-Смоленск, Изд-во СГУ, 1997, 367 с.
  6. Оксиюк О.П., Жукинский В.Н., Брагинский Л.П. и др. Комплексная экологическая классификация качества поверхностных вод суши // Гидробиол. журн. 1993. Т. 29. № 4. С. 62-77.
  7. Розенберг Г.С., Мозговой Д.П., Гелашвили Д.Б. Экология. Элементы теоретических конструкций современной экологии. – Самара: СамНЦ РАН, 1999. – 396 с.
  8. Кульбак С. Теория информации и статистика. – М.: Наука, 1967. – 408 с.
  9. Генкин А.А. Новая информационная технология анализа медицинских данных. – СПб: Политехника, 1999. – 191 с.
  10. Алгоритмы и программы восстановления зависимостей. – М.: Наука, 1984. – 816 с.

Дальше К следующему разделу Назад К предыдующему разделу Начало К началу разделу Список К оглавлению