Вперед К следующему разделу Назад К предыдующему разделу Конец К концу разделу Список К оглавлению

Часть I. Однофакторный дисперсионный анализ качественных признаков

1.1. Однофакторный ДА диморфных признаков

В основе однофакторного дисперсионного анализа качественных признаков с двумя альтернативными вариантами лежит следующее правило разложения суммарной вариансы на факториальную и остаточную :

.

(1.1)

Итак, допустим у нас есть s групп (выборок), численность каждой из которых составляет ni (где 1 ≤ is), а число организмов с интересующим нас признаком в каждой группе равно mi. Тогда суммарная варианса такого дисперсионного комплекса будет равна:

,

(1.2)

где N – суммарная численность всех объектов дисперсионного комплекса: ;
- средняя взвешенная частота признака для всей выборки:

.

(1.3)

Используя простое преобразование, можно получить другое выражение для расчета суммарной вариансы:

.

(1.4)

Факториальная варианса , отражающая изменчивость между выборками, определяется мерой неравенства частот анализируемого признака в различных выборках и может быть рассчитана по формуле:

.

(1.5)

Наконец, остаточная дисперсия , отражающая различия внутри каждой из выборок (в целом), рассчитывается по формуле:

,

(1.6)

где pi – частота признака в i-той выборке. Формулу (1.6) можно переписать в виде:

.

(1.7)

Достоверность влияния фактора можно оценить с помощью дисперсионного отношения:

,

(1.8)

которое имеет F-распределение Фишера-Снедекора с числом степеней свободы df1 = s – 1 и df2 = N – s.

Продемонстрируем использование однофакторного ДА на одном примере. Для пяти субпопуляций наземного моллюска H.albescens, расположенных в пределах одного паркового массива, было отмечено количество особей, имеющих фен “12345” в отношении характера опоясанности раковины (табл. 1.1).

Таблица 1.1

 

Популяция

Суммы

1

2

3

4

5

n

57

77

117

113

80

N = 444

m

16

34

33

93

53

S m = 229

p = m/n

0,281

0,442

0,282

0,823

0,663

 

СZ

11,509

18,987

23,692

16,460

17,888

Необходимо проверить гипотезу о равенстве частот встречаемости особей с данным феном характера опоясанности раковины во всех пяти анализируемых выборках.

Вначале необходимо рассчитать частоты встречаемости анализируемого признака как в каждой из выборок, так и во всей суммарной выборке в целом. Например, для выборки 1 частота особей с феном “12345” составляет:

p1 = 16/57 = 0,281.

А для всей выборки в целом:

.

Теперь, имея все необходимые данные, можно рассчитать оценки суммарной вариансы и остаточной по формулам (1.2) и (1.6):

;

.

Факториальную вариансу проще найти как разность между суммарной и остаточной:

.

Определим теперь число степеней свободы для факториальной, остаточной и суммарной варианс:

dfX = s – 1 = 5 – 1 = 4;

dfZ = Ns = 444 – 5 = 439;

dfT = N – 1 = 444 – 1 = 443.

Рассчитаем средние квадраты для факториальной и остаточной варианс:

;

.

Наконец, значение критерия Фишера рассчитаем как отношение среднего квадрата для факториальной вариансы к соответствующему значению для остаточной:

.

Это рассчитанное значение намного превышает табличное значение критерия Фишера для числа степеней свободы df1 = 4 и df2 = 439 (Fa =0,05 = 2,39), следовательно, нулевая гипотеза о равенстве частот данного фена в пяти изученных популяциях должна быть отвергнута.

Все полученные результаты заносим в стандартную таблицу дисперсионного анализа (табл. 1.2).

Таблица 1.2

Источник
изменчивости

s 2

df

MS

F

p

X

22,350

4

5,588

27,66

< 0,001

Z

88,536

439

0,202

T

110,886

443

Необходимо отметить, что уровень значимости критерия Фишера для результатов дисперсионного анализа качественных признаков данного типа будет соответствовать уровню значимости критерия c 2 Пирсона, используемого для проверки той же самой нуль-гипотезы, только в случае достаточно большого суммарного объема выборок (порядка нескольких тысяч). В целом, если dfZ → ∞, то F-критерий Фишера и критерий c 2 Пирсона объединяются равенством:

.

(1.9)

Таким образом, в случае анализа двух групп (выборок, субпопуляций и т.п), значения этих критериев (а, соответственно, и уровень их значимости) совпадает.

* * *

Оценка силы влияния фактора (в том случае, конечно, если доказано достоверное его влияние на изменчивость частот в различных градациях) может быть произведена двумя способами.

Первый способ. При использовании этого способа оценка силы влияния рассчитывается как отношение факториальной вариансы к общей:

,

(1.10)

оценка которого может варьировать от 0 до 1. В первом случае, частота особей с интересующим нас признаком равна во всех сравниваемых группах (т.е. градациях фактора). Достигнуть единицы показатель (1.10) может только в особом случае – в случае наличия только двух градаций фактора (двух выборок), причем все особи одной из выборок обладают признаком, а все особи из другой – не обладают им. В случае s групп (s > 2) оценка ή2 никогда не достигает единицы.

Оценка (1.10) имеет непосредственное отношение к критерию c 2 Пирсона, поскольку, используя формулу Брандта-Снедекора (Бейли, 1962), можно показать, что

,

(1.11)

где χ2 – оценка критерия Хи-квадрат Пирсона, используемая для проверки той же гипотезы, т.е. гипотезы о равенстве частот во всех анализируемых выборках (т.е. отсутствие влияния фактора).

Для рассматриваемого примера эта величина будет равна, соответственно:

.

Оценка уровня значимости этой величины может быть произведена учитывая, что величина

(1.12)

имеет распределение Хи-квадрат с числом степеней свободы

df = s – 1.

(1.13)

В нашем примере, рассчитанное значение χ2 = 0,202·444 = 89,69, что гораздо больше, чем табличное значение критерия Хи-квадрат с числом степеней свободы df = 5 – 1 = 4 ().

Второй способ. Если использовать второй способ, то оценка силы влияния фактора рассчитывается по формуле:

,

(1.14)

где

;

(1.15)

;

(1.16)

.

(1.17)

Формула 1.17 используется в том случае, если объемы выборок неравны; в случае, если объемы всех выборок равны между собой и равны n, то n* = n.

Продемонстрируем использование второго способа оценки силы влияния фактора на тех же данных из нашего примера.

Поскольку объемы выборок не равны, вначале используем формулу 1.17 для расчета усредненного показателя n*:

.

Далее, используем формулу 1.16 для расчета :

.

Таким образом, оценка силы влияния фактора для нашего примера будет равна:

.

Шеффе (1963) приводит следующую методику для расчета доверительного интервала полученной оценки.

Вначале рассчитываются величины:

;

(1.18)

,

(1.19)

где F – оценка дисперсионного отношения, полученная в результате проведения ДА; F1 – табличное значение критерия Фишера-Снедекора для α = 0,025; df1 = s – 1; df2 = Ns; F2 – табличное значение критерия Фишера-Снедекора для α = 0,975; df1 = s – 1; df2 = Ns.

Тогда, верхняя и нижняя границы 95 % доверительного интервала для оценки η2 будут равны:

;

(1.20)

.

(1.21)

Таким образом, для данных из нашего примера доверительный 95 % доверительный интервал будет равен:

; ;

; .

Следовательно, оценка силы влияния фактора для данных из нашего примера будет равна 0,235 с доверительным интервалом [0,092; 0,723].

Поскольку этот интервал не содержит 0, можно говорить о достоверном влиянии фактора (т.е. о достоверности различий частот признака в анализируемых выборках).

Отметим, что при использовании второго способа, в некоторых случаях может быть получено значение оценки силы влияния фактора, которое имеет отрицательную величину (что, по сути, не имеет смысла). В некоторых случаях нижняя граница доверительного интервала также может иметь отрицательный знак. Все это свидетельствует о том, что фактор не имеет никакого значимого влияния на изменчивость признака (вернее, его частот в различных выборках).

Использование первого способа никогда не дает таких бессмысленных значений, однако, его оценка является смещенной; и это смещение тем больше, чем сильнее отличаются выборки по численности. Однако, таким смещением можно пренебречь (особенно, при использовании выборок одного порядка), если учесть, что уровень значимости оценки силы влияния фактора (ή2) определяется, используя критерий c 2 Пирсона, для которого равенство объемов выборок при проверке нулевой гипотезы о гомогенности частот в нескольких выборках не является обязательным условием применимости. Единственно требование, в этом случае, чтобы самая редкая частота встречаемости искомого признака в одной из выборок была не менее 3-5 (Справочник…, 1990).

В нашем примере, оценки силы влияния фактора, полученные первым и вторым способом, оказываются достаточно близки.

Кроме того, как было показано Н.А.Плохинским (1964: стр.82), оценки силы влияния фактора, полученные двумя различными способами, связаны между собой простой зависимостью.

Вперед К следующему разделу Назад К предыдующему разделу Начало К концу разделу Список К оглавлению