Дальше К следующему разделу Назад К предыдующему разделу Начало К началу разделу Конец К концу разделу Список К оглавлению

Глава 6. Таблицы сопряженности и “интервальная” математика

 

6.1. Оценка зависимости признаков в таблицах сопряженности

Формулировка задачи

Пусть имеется ряд из m сопряженных наблюдений двух переменных A º (a1, ..., am) и B º (b1, ..., bm), причем, предполагается, что A – независимая переменная (фактор) влияет на значения B – зависимой переменной (отклик). При этом типы данных, в которых представлены показатели, носят вполне определенный характер: они должны быть измерены в классификационных или порядковых шкалах, либо сведены к таковым в ходе предварительной обработки.

Предположим, что признак А имеет r градаций (или уровней) A1, A2, …, Ar, а признак В подразделяется на s градаций B1, B2, …, Bs. В "свернутом" виде результаты наблюдений можно представить таблицей сопряженности, состоящей из r строк и s столбцов, в ячейках которых проставлены частоты событий nij, т.е. количество объектов выборки, обладающих комбинацией уровней Ai и Bj.

Если между переменными A и B имеется взаимно однозначная прямая или обратная функциональная связь, то все частоты nij концентрируются по одной из диагоналей таблицы. При связи не столь сильной некоторое число наблюдений попадает и на недиагональные элементы. В этих условиях перед исследователем стоит задача выяснить, насколько точно можно предсказать значение одного признака по величине другого.

В отличие от регрессионного анализа, в данном случае нас интересует не сколько конкретный вид расчетного уравнения B » f(A), а надежная и непротиворечивая оценка степени и характера влияния фактора на зависимую переменную. Говоря языком статистики, надо указать распределение вероятностей между возможными значениями второго признака при известном значении первого. Этой проблеме обычно предшествует более простая процедура: надо сначала проверить, существует ли вообще какая-либо связь между этими признаками, или же они ведут себя независимо друг от друга.

Рекомендуемая литература: [Елисеева, Рукавишников, 1977; Аптон, 1982; Енюков, 1986; Флейс, 1989].

Математический лист

Проверка нулевой гипотезы

Признаки А и В будут независимыми, если значение, принятое признаком А не влияет на вероятности возможных значений признака В:

P(Bj/Ai) = P(Bi) или P(Ai,Bj) = P(Ai) P(Bj)(6.1)

Значения использованных вероятностей нам неизвестны, однако, по теореме Бернулли, при большом объеме выборки (n ® ¥ ) частоты в ячейках таблицы сопряженности будут являться оценками этих вероятностей. При выполнении гипотезы о независимости признаков справедливо

pij = pi. × p.j ,(6.2)

где следующие величины трактуются как ожидаемые частоты:

,

(замена индекса точкой означает результат суммирования по этому индексу). Тогда проверка нулевой гипотезы сводится к оценке, насколько близки значения фактических и ожидаемых частот, т.е.

. (6.3)

Методы сравнения эмпирических (H) и теоретических (T) частот по А. Брандту (А. Brandt) и Г. Снедекору (G. Snedecor) основываются на расчете критерия согласия c 2, оценивающего меру близости по всем ячейкам таблицы сопряженности:

. (6.4)

Если в конкретном опыте величина c 2 оказывается чрезмерно большой, то приходится признать, что ожидаемые частоты слишком сильно отличаются от наблюдаемых. Ответ на естественный вопрос, о том, какие значения статистики следует считать чрезмерно большими, дает теорема К. Пирсона – Р. Фишера, из которой следует:

В 1934 г. Ф. Иэйтс (F. Yates) предложил ввести в выражение для статистики c 2 так называемую поправку на непрерывность, которая связана с тем, что непрерывные распределения хи-квадрат и, соответственно, нормальное распределение используются для представления дискретных выборочных частот. С учетом такой поправки данное выражение примет следующий вид:

.(6.5)

Оценка силы связи

Как всегда в статистике, интерес исследователя не ограничивается принятием гипотезы, оценивающей величину риска предположения о существовании связи. Если признаки оказались взаимосвязаны (т.е. гипотеза об их независимости была проверена и отвергнута) представляет интерес оценка силы связи, которую хочется видеть в некотором привычном интервале величин, например, от –1 до +1 с нулевым значением при отсутствии связи. Сама по себе такая постановка проблемы определенным образом дискуссионна. Достаточно сказать, что нет единого мнения даже у соавторов настоящей книги: один из нас считает приоритетным при оценке силы связи уютный коэффициент корреляции Пирсона r (суть – долю факториальной вариации), а другой – статистики Фишера или c 2 (то же, но только с учетом степеней свободы), напрямую связанные с фундаментальными для статистики уровнями значимости.

В случае таблиц сопряженности для измерения силы связи предложены десятки формул [Миркин, Розенберг, 1979; Миркин и др., 1989], которые можно свести к трем основным группам:

Коэффициенты связи, основанные на c 2 , исходят из предпосылки о том, что, чем больше объем выборки m, тем легче получить статистически значимую величину критерия даже при очень слабой взаимосвязи переменных (т.е. при больших объемах выборки даже слабые связи будут статистически значимыми).

Чтобы элиминировать влияние объема выборки m , К. Пирсон предложил в качестве меры связи среднеквадратическую сопряженность (он же – редуцированный коэффициент корреляции)

, (6.6)

который изменяется в диапазоне от 0 до min(r – 1, s – 1).

Стремясь нормировать меру связи к единому диапазону, С. Крамер видоизменил формулу (6.6) для своего коэффициента Крамера:

,(6.7)

верхний предел которого единица.

А.А. Чупров нашел для похожей формулы более звучное название – полихорический коэффициент сопряженности (коэффициент Чупрова):

.(6.8)

Нетрудно заметить, что T 2 и V 2 эквивалентны, когда число столбцов равно числу строк, в иных случаях V 2 всегда больше, чем T 2 . Для таблицы 2х2 обе меры равны f 2.

Наконец, можно упомянуть еще один коэффициент, связанный с именем К. Пирсона – коэффициент контингенции:

.(6.9)

Перечисленные коэффициенты, основанные на c 2 , остаются неизменными при перестановке местами строк или столбцов таблицы и всегда выражаются положительными числами, поэтому уяснение направления зависимости должно производиться только по виду таблицы сопряженности.

Коэффициенты, основанные на рангах, позволяют извлечь информацию о направлении связи между признаками, используя понятие коррелируемости на основе подсчета числа пар объектов с взаимно возрастающими, взаимно убывающими и равными значениями признаков.

Коэффициент t Кендалла учитывает число пар с равными признаками и может достигать значений -1 и +1, отражающих высшую степень положительной или отрицательной корреляции между признаками. Обычно вычисляется два варианта статистики Кендалла: t b и t c, которые различаются только способом обработки совпадающих рангов.

Если в данных имеется много совпадающих значений, предпочтительнее g -статистика Гудмана-Кендалла, которая представляет собой нормированную разность между вероятностью P того, что ранговый порядок двух переменных совпадает, и вероятностью Q того, что он не совпадает:

g = (P - Q)/(P + Q).

Таким образом, g -статистика в основном эквивалентна t Кендалла, за исключением того, что совпадения явно учитываются в нормировке.

Коэффициент d Соммера аналогичен коэффициенту g с дифференциальным учетом пар с равными значениями признаков. Вычисляются два значения коэффициента, учитывающих равенство первого d(A|B), и второго d(B|A) признака.

Информационный подход к оценке связи. Традиционные меры связи, основанные на c 2, представляют собой сугубо эвристические конструкции, интерпретация и математико-статистическое обоснование которых оставляет желать много лучшего. Поэтому понятен интерес к оценкам, основанным на теоретико-информационном подходе к анализу таблиц частот.

Современная трактовка статистической связи между переменными A и B сводится к оценке количества информации

I(A, B) = H(B) – H(B|A) ,(6.10)

которое устраняет неопределенность того, какое значение примет B, если известно значение A. Таким образом, мера сопряженности оценивается как доля сопряженного разнообразия величины B, включенной в систему (A,B), по сравнению с разнообразием (энтропией) B, рассматриваемой отдельно:

RB|A = I(A,B)/H(B) .(6.11)

Практическая трудность построения мер, относящихся к этому семейству, заключается в трудности выбора конкретных дефиниций и формальных выражений понятий "неопределенность" и "информация" из множества возможных. Например, согласно принципа "пропорциональной предикции", высказанного Л. Гудменом и В. Крускалом (L. Goodman, V. Kruscal), мерой связи должно служить относительное уменьшение вероятности ошибки предикции (предсказания) значения зависимого признака по значению независимого. Если в рамках этой концепции производить оценку относительной ошибки, используя отношения правдоподобия и минимизацию числа ошибочных предсказаний, мы получаем меру связи, известную как l -коэффициент Гудмана:

,(6.12)

где – вероятность, соответствующая модальной категории маргинального распределения B; – вероятность модального значения B при i-м значении A. Значения l лежат в пределах от 0 до 1: 0 означает невозможность предсказания зависимого признака, а 1 означает, что по значению независимого признака можно уверено предсказать значение зависимого признака. Необходимо отметить, что нулевое значение l эквивалентно не состоянию статистической независимости, а тождеству модальных категорий переменных А и B.

Кроме несимметричных мер l , требующих предварительного уточнения, какая из двух переменных является объясняемой, чешские авторы (J. Rehak, B. Rehakova) предложили симметричный коэффициент Гудмана:

. (6.13)

Кроме l -статистики Гудмана, можно упомянуть еще ряд критериев, основанных на теоретико-информационном подходе к построению мер связи: коэффициент Валлиса, информационные коэффициенты корреляции Линфута, Райского и т.д. [Елисеева, Рукавишников, 1977].

 

Результаты расчетов

В разделах 2 и 5 главы 4 были описаны различные биотические индексы, предложенные Ф.Вудивиссом, Э.А. Пареле и Е.В. Балушкиной. Фиксированный диапазон значений этих индексов соответствует классам качества вод шестибалльной шкалы (см. табл. 4.7 главы 4). Сформируем выборку значений этих трех индексов, рассчитанных по результатам гидробиологического мониторина для различных створов рек Самарской области. Для тех же точек наблюдений оценим класс качества воды по химическим показателям на основе гидрохимического индекса загрязения воды ИЗВ, либо по методике Былинкиной и Драчева, если имеющихся гидрохимических данных было недостаточно (см. разделы 3.5-3.6).

Сравним, используя таблицы сопряженности (см. табл. 6.1), насколько соответствуют оценки по гидробиологическим индексам реальным классам качества воды по гидрохимическим показателям. Предварительный анализ легко выполнить визуально: при полном совпадении оценок классов все ненулевые значения должны сконцентрироваться на главной диагонали. Этого, разумеется, не произошло и совпадение прогноза класса качества по индексу Вудивисса составило 38% случаев, индексу Пареле – 21%, индексу Балушкиной – 33%.

Таблица 6.1

Таблицы сопряженности, основанные на классах качества воды по гидрохимическим показателям (столбцы) и биотическим индексам (строки)

Градации строк

Градации столбцов – классы качества

по гидрохимическим показателям

Итог по строкам

2

3

4

5

6

Классы качества вод, оцененные по биотическому индексу Вудивисса

2

25

22

8

2

0

57

4.32%

3.80%

1.38%

0.35%

0.00%

9.84%

3

21

52

46

9

3

131

3.63%

8.98%

7.94%

1.55%

0.52%

22.63%

4

2

27

39

4

3

75

0.35%

4.66%

6.74%

0.69%

0.52%

12.95%

5

4

24

88

66

44

226

0.69%

4.15%

15.20%

11.40%

7.60%

39.03%

6

4

6

18

23

39

90

0.69%

1.04%

3.11%

3.97%

6.74%

15.54%

Итоги по столбцам

56

131

199

104

89

579

9.67%

22.63%

34.37%

17.96%

15.37%

100.00%

Классы качества вод, оцененные по индексу Пареле

1

23

38

39

10

6

116

6.10%

10.08%

10.34%

2.65%

1.59%

30.77%

2

7

14

26

12

9

68

1.86%

3.71%

6.90%

3.18%

2.39%

18.04%

3

6

11

18

9

4

48

1.59%

2.92%

4.77%

2.39%

1.06%

12.73%

4

3

8

29

10

4

54

0.80%

2.12%

7.69%

2.65%

1.06%

14.32%

5

1

5

17

24

6

53

0.27%

1.33%

4.51%

6.37%

1.59%

14.06%

6

1

8

9

12

8

38

0.27%

2.12%

2.39%

3.18%

2.12%

10.08%

Итоги по столбцам

41

84

138

77

37

377

10.88%

22.28%

36.60%

20.42%

9.81%

100.00%

Классы качества вод, оцененные по хирономидному индексу Балушкиной

2

31

32

31

5

11

110

6.30%

6.50%

6.30%

1.02%

2.24%

22.36%

3

17

54

76

19

8

174

3.46%

10.98%

15.45%

3.86%

1.63%

35.37%

4

5

35

66

41

30

177

1.02%

7.11%

13.41%

8.33%

6.10%

35.98%

5

1

8

10

10

2

31

0.20%

1.63%

2.03%

2.03%

0.41%

6.30%

Итоги по столбцам

54

129

183

75

51

492

10.98%

26.22%

37.20%

15.24%

10.37%

100.00%

 

Более объективный анализ связи между оценками качества воды в гидробиологических и гидрохимической шкалах можно сделать с использованием описанных выше статистических критериев. Как свидетельствуют расчеты, представленные в табл. 6.2, в соответствии с критериями c 2 и t b Кендалла нет никаких оснований принимать гипотезу об отсутствии связи между классами качества, оцененными по биотическим индексам и по гидрохимическим показателям.

Сравнительный анализ значений коэффициентов связи позволяет сделать вывод о том, что на имеющемся экспериментальном материале ощутимое превосходство в прогностической силе имеет биотический индекс Вудивисса, тогда как индексы Пареле и Балушкиной дают значительно более скромные и приблизительно одинаковые по точности результаты.

Таблица 6.2

Анализ силы связи в таблице сопряженности (см. табл. 6.1) с использованием различных статистических критериев и коэффициентов

Наименование критерия или

коэффициента

Класс по индексу Вудивисса

Класс по индексу Пареле

Класс по индексу Балушкиной

Критерий c 2

288.45 (р=0.0)

69.68 (р=0.0)

88.6 (р=0.0)

V-статистика Крамера

0.3529

0.215

0.245

Коэффициент контингенции С

0.5766

0.395

0.3906

t b - статистика Кендалла

0.5114 (р=0.0)

0.2781 (р=0.0)

0.2778 (р=0.0)

t c - статистика Кендалла

0.483

0.2708

0.2662

g - статистика

0.6567

0.3533

0.3803

Коэфициент d Соммера симметр.

0.5114

0.2779

0.2776

то же, по строкам

0.5048

0.2877

0.2673

то же, по столбцам

0.5181

0.2688

0.2887

l Гудмана-Крускала симметр.

0.1269

0.054

0.0897

то же, по строкам

0.1388

0.0651

0.1746

то же, по столбцам

0.1158

0.0418

0.0032

Следует еще раз подчеркнуть, что сама по себе величина коэффициентов связи мало о чем говорит и имеет содержательный смысл только при сравнении между собой выборок, имеющих примерно одинаковую размерность и условия формирования. Например, коэффициент l Гудмана, также как и коэффициент детерминации R2, обычно имеет небольшие значения. Оценки этого коэффициента для наших таблиц не превышали 0.15, т.е. объяснено всего около 10% качественной дисперсии. В то же время, значимость критерия "хи-квадрат" свидетельствует о высоком уровне связи. Поэтому, на наш взгляд, не следует недооценивать влияние фактора, ориентируясь на небольшие величины коэффициентов детерминации как для количественных, так и для неколичественных переменных, а полагаться на содержательные результаты, подтвержденные значимостью связей при статистической проверке результатов.

Другой формой визуального анализа таблиц сопряженности является их графическое представление в виде различного рода диаграмм. На рис. 6.1 представлен вариант столбчатой диаграммы совместного распределения значений индекса Вудивисса и классов качества воды, оцененных по гидрохимическим показателям.

Рис. 6.1. Частотное распределение значений биотического индекса Вудивисса на станциях с разным классом качества воды

Несмотря на выявленный высокий уровень связи между этими признаками, можно отметить значительное снижение адекватности прогноза класса качества воды в области малых значений показателя V: величина индекса Вудивисса менее 3 далеко не всегда свидетельствует о реальном химическом загрязнении воды, а может определяться посторонними факторами (условиями отбора проб, сезонностью и проч.).

 

Мем № 33: “Об экологическом благополучии водного объекта можно судить по составу доминирующего комплекса донных организмов, соотношению численности личинок хирономид, относящихся к роду Chironomus, подсемейству Orthocladiinae и трибе Tanytarsini …и другим показателям донных сообществ”
В.А. Яковлев [1988].

Проанализируем это часто встречающееся в литературе утверждение, сформировав частотные таблицы сопряженности.

Поскольку алгоритмы анализа сопряженности связаны с признаками, измеренными в порядковых шкалах, предварительно выполним следующие преобразования:

;(6.14)

Используя полученные градации, сформируем таблицы сопряженности обилия хирономид подсемейств Tanypodinae (см. пример в табл. 6.3), Orthocladiinae и Chironominae с двумя факторами среды – классом качества воды по гидрохимическим показателям и ландшафтно-географической категорией станции наблюдения.

Результаты анализа силы и достоверности связи по некоторым основным критериям представлены в табл. 6.4.

Таблица 6.3

Таблица сопряженности, основанная на градациях обилия личинок подсемейства Tanypodinae (столбцы) и ландшафтно-географическим категориям станций (строки)

Ландшафтно-географические

категории

Градации обилия Tanypodinae

Итого по строкам

0

1

2

3

4

5

6

1. Ручьи и родники

8

3

4

4

1

1

0

21

1.69%

0.64%

0.85%

0.85%

0.21%

0.21%

0.00%

4.45%

2. Малые реки возвышенностей

82

10

23

14

17

10

3

159

17.37%

2.12%

4.87%

2.97%

3.60%

2.12%

0.64%

33.69%

3. Малые равнинные реки

6

4

2

4

2

3

1

22

1.27%

0.85%

0.42%

0.85%

0.42%

0.64%

0.21%

4.66%

4. Средние равнинные реки

31

8

13

19

21

7

1

100

6.57%

1.69%

2.75%

4.03%

4.45%

1.48%

0.21%

21.19%

5. Устья рек

22

1

11

12

7

2

0

55

4.66%

0.21%

2.33%

2.54%

1.48%

0.42%

0.00%

11.65%

6. Пруды, озера, водохранилища

57

3

17

20

15

3

0

115

12.08%

0.64%

3.60%

4.24%

3.18%

0.64%

0.00%

24.36%

Итого по столбцам

206

29

70

73

63

26

5

472

43.64%

6.14%

14.83%

15.47%

13.35%

5.51%

1.06%

100 %

 

Таблица 6.4

Анализ силы связи в таблицах сопряженности между градациями обилия отдельных групп видов хирономид и факторами среды: классом качества воды по гидрохимическим показателям и ландшафтно-географические категориям станций

Факторы среды

Подсемейства/трибы хирономид

Cтатистика c 2 “хи-квадрат”

V статис-тика Крамера

t b - статистика Кендалла

l Гудмана симметр.

критерий

p

критерий

p

Класс качества воды (гидрохимический)

Tanypodinae

23.26

0.504

0.1110

-0.0222

0.558

0.0018

Orthocladiinae

97.94

0

0.2270

-0.2919

0

0.0413

Chironomini

67.2

0.0003

0.189

0.516

0

0.0431

Tanytarsini

86.10

0

0.2135

-0.2780

0

0.0277

Ландшафтно-географические категории

Tanypodinae

47.54

0.022

0.1419

0.0311

0.409

0.0173

Orthocladiinae

91.29

0

0.1967

-0.2216

0

0.0642

Chironomini

143.3

0

0.2481

0.248

0

0.126

Tanytarsini

93.91

0

0.1995

-0.1959

0

0.0625

Данные в таблицах дают нам основания сделать следующие выводы:

  1. В разделе 5.6 по результатам рангового корреляционного анализа остался открытым вопрос о влиянии органического загрязнения (по БПК5) на численность хирономид подсемейства Tanypodinae. Анализ таблиц сопряженности дал более категорическое заключение – обилие таниподин определяется, в основном, типологическими особенностями водоемов (являясь вместе с тем показателем процесса их эвтрофирования ) и мало зависит от химического загрязнения,;
  2. Экологический диапазон видов подсемейств Orthocladiinae и Chironominae (трибы Tanytarsini и Chironomini) существенно более узкий, однако их обилие примерно в равной степени определяется как классом качества вод по гидрохимическим показателям, так и факторами, напрямую не связанными с антропогенным воздействием.

 

Дальше К следующему разделу Назад К предыдующему разделу Начало К началу разделу Конец К концу разделу Список К оглавлению