Дальше К следующему разделу Назад К предыдующему разделу Начало К началу разделу Конец К концу разделу Список К оглавлению

6.4. Нахождение пороговых значений с использованием детерминационного анализа

Формулировка задачи

Пусть имеется две группы числовых переменных X º (x1 , ..., xp) и Y º (y1 ,..., ym), причем предполагается, что Х – независимая переменная ("объясняющий признак") влияет на значения Y – зависимой переменной ("объясняемый признак"). В общем случае предполагается, что обе переменных измерены в количественных шкалах (интервальной, абсолютной или шкале отношений).

Необходимо найти такое значение E = xкрит, которое может трактоваться на используемом эмпирическом материале как некоторый порог толерантности. Синонимами термина xкрит являются "предельно допустимая или критическая нагрузка", "экологически допустимый уровень (ЭДУ) нарушающих воздействий" [Левич, 1994] и ряд других словоформ, которые подробно обсуждались в разделе 1.4.

На протяжении всей книги мы неоднократно обращались и будем обращаться к понятию “пороговости”, а в этом разделе покажем, как значение xкрит может быть получено с использованием несложного алгоритма анализа таблиц сопряженности 2´ 2, который в социологических исследованиях именуется как “детерминационный анализ”. Использованию этого метода для анализа антропогенных воздействий на пресноводные экосистемы посвящена серия статей коллектива авторов из Московского университета – В.Н. Максимова, Н.Г. Булгакова, А.П. Левича и др. [Замолодчиков с соавт., 1992; Булгаков с соавт., 1995; Левич, Терехин, 1997; Максимов с соавт., 1999, 2000а,б, 2001]. Эти публикации следует трактовать как первый серьезный (хотя и методологически не во всем бесспорный) вклад в разрешение сложных вычислительных проблем оценки границ между областями нормального и патологического функционирования природных объектов.

Математический лист

Основная концепция детерминационного анализа заключается в том, что роль функций традиционного регрессионного или факторного анализа выполняют правила, которые авторы метода возводят к силлогистике Аристотеля. Правило – это особый математический объект, представляющий суждение вида “Если A, то B” (или сокращенно AB), где A, B – соответственно, объясняющий и объясняемый признаки.

Любое правило вида AB всегда рассматривается вместе с двумя характеристиками:

где N(A,B) – количество случаев, в которых A и B встречаются вместе; N(A) – количество случаев, когда имеет место A безотносительно к B; N(B) – количество случаев, когда имеет место B безотносительно к A.

Собственно, любое логическое суждение становится правилом детерминационного анализа ("детерминацией") только тогда, если его точность и полнота удовлетворяют некоторым критериям, т.е. находятся в некоторых границах, причем показатель Т оценивает надежность, а Р – универсальность суждения.

Рассмотрим теперь применимость детерминаций для оценки порога толерантности. Пусть X – нормируемый фактор среды, а Y – оценка экологического состояния. Предположим, что нам известны два числа: E = xкрит – значение пороговой нагрузки фактора, которое нам предстоит найти, и F = yнорм – пограничное значение на шкале Y, за пределами которой экологическое состояние оценивается как неблагополучное. В этих условиях корреляционное поле рассеяния всех n значений Y-X можно свернуть до стандартной таблицы сопряженности 2´ 2, в ячейках которой находятся частоты (количества измерений), соответствующие приведенным условиям:

Условия для Х и Y

Y ³ F

Y < F

Итого

X < E

a

c

a + c

X ³ E

b

d

b + d

Итого

a + b

c + d

n = a + b + c + d

В соответствии с этими обозначениями, точность детерминации “Из того, что X < E, следует Y ³ F определяется по формуле

T = a / (a+c), (6.38)

а ее полнота – по формуле

P = a / (a + b). (6.39)

Приведенное правило соответствует обратно пропорциональной связи между признаками, хотя в определенных ситуациях (например, для концентрации растворенного в воде кислорода) детерминационное правило может быть сконструировано по альтернативному механизму связи.

В общем случае, граница области экологически допустимых значений фактора двухсторонняя (вспомним, по ком звонят "уиттекеровские колокола"); следовательно, необходимо ввести две пороговые переменные E1 и E2. При этом меняются только столбец условий для X, первое из которых будет выглядеть как “X ³ E2 или X £ E1”, а второе – как “E2 > X > E1, в то время как само правило и выражения для полноты и точности никаких изменений не претерпевают.

Естественно, что можно предложить достаточно большое (из соображений общности можно сказать "бесконечно большое") количество чисел-претендентов для пороговых значений E и F. Предлагается считать оптимальной такую величину Е, которой соответствует максимальное значение полноты Р при заданной нижней границе точности Т. Процедура поиска оптимального решения в детерминационном анализе использует технику полного перебора и сводится к следующему алгоритму:

В работах В.Н. Максимова с соавторами подробно описана также технология детерминационного анализа совокупного действия нескольких факторов среды в виде многофакторных (до 5) комплексов, поэтому читатель, заинтересованный в изучении проблем синергетики воздействий, может обратиться непосредственно к первоисточникам.

Подробно ознакомиться с концепцией детерминационного анализа можно на сайте разработчиков ДА-программы: http://www.context.ru, где также приводятся своеобразные "рецепты" стратегии и тактики статистической обработки. Вот, например, цитата с этого сайта, олицетворяющая тип "агрессивно-самоутверждающего" рекламного мема:

Мем № 35: “В настоящее время имеется около сотни различных методов измерять связь между признаками… Такое "разнообразие методов" не имеет научной ценности, поэтому без ущерба для дела может и должно быть упразднено. Мы сделали это в ДА-системе, предложив пользователям ясную концепцию связи, реализованную в понятии правила (детерминации). Аналогично обстоит дело и с "разнообразием методов" в решении задачи построения новых характеристик на основе заданных. Здесь "многочисленность методов" также имеет фиктивный характер…” [http://www.context.ru].

Думается, что любой читатель, памятуя о принципе множественности моделей сложных систем (см. раздел 2.4), будет неприятно озадачен предложением "закрыть за ненадобностью" всю прикладную математику последнего полувека, заменив ее соотношениями полноты и точности двухпольных таблиц сопряженности…

В то же время, используемый в детерминационном анализе алгоритм выбора наилучших границ интервала X с позиций классических методов оптимизации нельзя признать результативным. Расчеты по ДА-программе предполагают большую неопределенность конечного результата при практически неконтролируемой свободе выбора параметра условия h-порога точности Т.

Будем, например, искать экологически допустимый уровень (ЭДУ) концентрации минерального фосфора в условиях, описанных ниже в таб. 6.9, используя график полноты и точности для различных значений ЭДУ на рис. 6.5. Очевидно, что значение полноты всегда монотонно увеличивается по мере увеличения ширины диапазона Е1-E2, причем естественный максимум полноты Рmax = 100% достигается при полном охвате всей области варьирования. При этом можно выбрать широкое множество пороговых значений h для точности, которые субъективно могут показаться вполне приемлемыми:

Рис. 6.5. Зависимость полноты и точности детерминационных правил от выбранного порога толерантности для концентрации фосфора

Поэтому, целесообразнее осуществить постановку задачи поиска наилучшего решения в иной интерпретации без параметра h, сконструировав подходящий критерий безусловной оптимизации в виде функциональной комбинации Р и Т. Например, в теории конструирования библиографических информационно-поисковых систем проблема соотношения полноты и точности (именно оттуда социология заимствовала эти понятия) исследовалась с начала 60-х годов [Аветисян, 1973; Селтон, 1973]. В частности, там широко используется [Попов, 1981, URL] критерий релевантности выдачи документов

n = (Р*Т)0.5 ,(6.40)

который при определенных условиях сводится к тетрахорическому коэффициенту корреляции Чупрова – см. формулу (6.8) раздела 6.1.

Результаты расчетов

Сформируем по результатам мониторинга сообществ зообентоса на малых реках Самарской области несколько выборок, содержащих сопряженные значения наблюдений пар признаков, один из которых (гидробиологический) считается объясняемым, а другой (гидрохимический) – объясняющим.

Предпосылки детерминационного анализа требуют непременной трансформации объясняемого признака в шкалу двух градаций. Сама по себе эта процедура не является тривиальной, поскольку в разделе 6.3 перечислено не менее пяти различных стратегий такого разбиения. В.Н. Максимов с соавторами предлагают делить область варьирования на "два примерно равно заполненных класса" или использовать в качестве границы "среднемноголетнее значение". Впрочем, анализ устойчивости получаемой оптимальной величины порога толерантности в зависимости от стратегии трансформации гидробиологического показателя в шкалу двух градаций выходит за рамки настоящего изложения.

Сведения об использованных выборках, выбранные условия "благополучности" экосистем и результаты расчетов экологически допустимых уровней (ЭДУ) представим в форме стандартных таблиц сопряженности в табл. 6.9.

Таблица 6.9

Результаты оценки экологически допустимого уровня трех гидрохимических показателей методом детерминационного анализа (затемнены ведущие ячейки таблиц сопряженности, по которым вычислялись критерии полноты P и точности T)

Действующий фактор

Градации фактора относительно критического порога

Неблагополучное состояние

Благополучное состояние

Итого по строкам

БПК5,

мгО2

ПДКвр – не более 3

Биотический индекс Вудивисса V

 

Менее 3

3 и более

Менее 4.02

18

24

42

Более 4.02

43

14

57

Итого по столбцам

61

38

m = 99

Критерии:

Р = 24/38 = 63.2%

Т= 24/42 = 57.1%

Фосфор минеральный,

мг/л

ПДКвр – не более (0.05 ¸ 0.2)

Индекс Шеннона H

 

Менее 2.5

Более 2.5

Менее 0.036

23

26

49

Более 0.036

54

22

76

Итого по столбцам

77

48

m = 125

Критерии:

P = 26/48 = 54.2% T = 26/49 = 53.1%

Кислород у дна,

% от степени насыщенности

ПДКвр – не менее 75

Численность хищников-хватателей Nh

 

Менее 100 экз/м2

Более 100 экз/м2

Между 89 и 119

77

117

194

Менее 89 или более 119

65

47

112

Итого по столбцам

142

164

m = 306

Критерии:

P = 117/164 = 71.3%

T = 117/194 = 60.3%

 

По каждой из трех выборок ведущей ячейкой в представленных таблицах сопряженности является “Благополучное состояние экосистемы” и “Действие фактора в диапазоне толерантности (ЭДУ)”, а критериями оптимальности сформированной таблицы считаются доли частоты в ведущей ячейке к маргинальным значениям по строке (полнота Р) и столбцу (точность Т). Диапазоны ЭДУ были рассчитаны по алгоритму соотношения полноты и точности, используемому в программе ДА-анализа.

Найденные значения порогов толерантности по БПК5 (менее 4.02 мг/л) и концентрации фосфатов (менее 0.036 мг/л) оказались весьма близки соответствующим значениям ПДК для водоемов рыбохозяйственного назначения (см. табл. 3.1). Что касается ЭДУ растворенного кислорода (между 89 и 119%), то можно предположить сильное влияние на его величину характера распределения использованных выборок.

Дальше К следующему разделу Назад К предыдующему разделу Начало К началу разделу Конец К концу разделу Список К оглавлению