Вперед К следующему разделу Назад К предыдующему разделу Конец К концу разделу Список К оглавлению

Часть II. Двухфакторный дисперсионный анализ качественных признаков

3. Двухфакторный ДА диморфных признаков

В основе двухфакторного дисперсионного анализа (ДДА) качественных признаков, представленных всего двумя вариансами, лежит уже знакомый нам закон разложения суммарной изменчивости, однако с некоторыми дополнениями. В случае, когда рассматривается одновременное влияние на зависимую переменную двух (независимых) факторов (например, локалит и год сбора материала, и т.п.) факториальная варианса () сама уже представлена суммой трех компонент:

,

(3.1)

где - варианса, которая определяется влиянием фактора А, - варианса, которая определяется влиянием фактора В и, наконец, - варианса, определяемая одновременным влиянием фактора А и фактора В.

Таким образом, в случае проведения ДДА необходимо рассчитать четыре вариансы (общую, остаточную и двух главных факторов), и еще две вариансы (факториальную и совместного влияния А×В) можно рассчитать арифметически. Приведем последовательность выполнения расчетов при проведении ДДА качественных признаков с двумя альтернативными состояниями на следующем примере.

В двух различных популяциях наземного моллюска Cepaea hortensis (фактор А; две градации) за три последовательных года (фактор В; три градации) были собраны выборки моллюсков (n), среди которых подсчитано количество с раковинами, не имеющими пигментных лент (m).

Необходимо выяснить, имеются ли различия в частоте встречаемости бесполосых морф между популяциями и в различные годы исследования, оценить силу влияния пространственного фактора, временного фактора и их совместного влияния (если оно имеется).

Все исходные данные приведены в таблице 3.1.

Таблица 3.1

A1

A2

Суммы

B1

B2

B3

B1

B2

B3

m

35

55

20

40

85

35

M = 270

n

120

150

125

250

230

175

N = 1050

p

0,292

0,367

0,160

0,160

0,370

0,200

0,257

n·p·(1 - p)

24,808

34,847

16,800

33,600

53,613

28,000

1. Рассчитаем частоты встречаемости анализируемого признака для всех сочетаний фактора А и фактора В (всего шесть групп). Например, для первой градации фактора А в сочетании с первой градацией фактора В это значение составит: pAB1 = 35 : 120 = 0,292, и т.п.

Далее, рассчитаем среднюю взвешенную частоту встречаемости анализируемого признака по всем возможным сочетаниям признака. Для этого суммарное количество зарегистрированных бесполосых морф в обеих популяциях за три года исследования поделим на общее количество исследованных особей: .

2. Рассчитаем суммарную вариансу:

.

(3.2)

Для каждого сочетания градаций обеих факторов рассчитаем подобные же величины. Например, для первой градации фактора А в сочетании с первой градацией фактора В это значение составит: . (Эти значения приведены в таблице 3.1 в самой нижней строке.) Сумма этих величин дает нам значение остаточной вариансы (). Таким образом, для нашего примера, значение остаточной вариансы равно:

.

Разница между суммарной вариацией и остаточной дают нам величину факториальной вариансы (т.е. сумму всех трех ее компонент):

.

3. Для того, чтобы теперь вычленить из этой общей факториальной вариансы вариансу, обусловленную территориальным фактором (А) построим новую вспомогательную таблицу.

Таблица 3.2

 

А1

А2

mА

110

160

nА

395

655

pА

0,278

0,244

     

n·pА·(1 - pА)

79,283

120,824

Заполняется эта таблица следующим образом. Вначале необходимо найти количество всех бесполосых морф суммарно для всех градаций фактора В внутри градации А1: mA1 = 35 + 55 + 20 = 110. Аналогично найдем суммарное количество всех бесполосых морф для второй градации фактора А: mA2 = 160.

Далее, найдем общее количество анализируемых особей для всех градаций фактора В внутри градации А1: nA1 = 120 + 150 + 125 = 395. И такую же величину для второй градации фактора А: nA2 = 655.

Затем, рассчитаем относительные частоты встречаемости бесполосых раковин для градаций фактора А без учета градаций фактора В: pA1 = 110 : 395 = 0,278 и pA2 = 160 : 655 = 0,244.

По аналогии с формулой 3.2, найдем для каждой градации фактора А вариансу частот (последняя строка таблицы 3.2) и их сумму:

СА = 79,283 + 120,824 = 200,107.

Тогда, варианса, вызванная влиянием только фактора А (без учета влияния фактора В) будет равна:

.

(3.3)

4. Для того, чтобы теперь вычленить из общей факториальной вариансы вариансу, обусловленную временным фактором (В) построим еще одну вспомогательную таблицу.

Таблица 3.3

 

В1

В2

В3

mВ

75

140

55

nВ

370

380

300

pВ

0,203

0,368

0,183

       

n·pВ·(1 - pВ)

59,863

88,379

44,853

Все ячейки таблицы 3.3 заполняются аналогично тому, как мы это делали для таблицы 3.2. Таким образом, производится анализ влияния только фактора В (вернее, его градаций) без учета влияния фактора А.

В итоге получаем, что сумма значений в последней строке таблицы 3.3 равна: CB = 59,863 + 88,379 + 44,853 = 193,095. Тогда, по аналогии с формулой 3.3, варианса, вызванная влиянием только фактора В равна: .

5. Наконец, последнее слагаемое (варианса, вызванная одновременным влиянием фактора А и фактора В) находим как разность факториальной вариансы и варианс, вызванных фактором А и фактором В по отдельности, т.е. используем формулу 3.1:

.

6. Следующим этапом нашего анализа будет расчет числа степеней свободы для всех шести варианс:

dfT = N – 1;

(3.4)

dfA = a – 1;

(3.5)

dfB = b – 1;

(3.6)

dfA×B = (a – 1)·(b – 1);

(3.7)

dfX = a·b – 1;

(3.8)

dfZ = Na·b,

(3.9)

где a – число градаций фактора А; b – число градаций фактора В.

Для нашего примера, соответствующие значения числа степеней свободы будут равны:
dfT = 1049; dfA = 1; dfВ = 2; dfA×B = 2; dfX = 5 и dfZ = 1044.

7. Средние квадраты рассчитываются (как и при любом типе ДА) как отношение варианс к соответствующим значениям числа степеней свободы. Например, средний квадрат для фактора А будет равен:

и т.д.

(3.10)

8. Завершающим этапом ДДА является расчет дисперсионных отношений для трех основных источников изменчивости данных дисперсионного комплекса (фактора А, фактора В и совместного действия факторов А и В). Однако, при этом необходимо учитывать тип фактора. Как известно, факторы бывают фиксированными и случайными.

Если исследователя интересуют различия между определенными градациями фактора (например, определенными видами, определенными популяциями, определенными годами и т.п.), то такая модель ДА называется моделью I типа или моделью с фиксированными (fixed) факторами.

И наоборот, если градации фактора выбраны случайно из большого (бесконечно) числа возможных его состояний, то такая модель ДА называется моделью II типа или моделью со случайными (random) факторами.

Если один из факторов имеет случайно выбранные градации, а второй – фиксированные, то такая модель ДА называется смешанной моделью.

В зависимости от того, каков из обоих факторов ДДА имеет место четыре различные ситуации и, соответственно, четыре схемы расчета дисперсионных отношений и оценки уровня их значимости, которые представлены в таблице 3.4.

Если теперь принять, что в нашем примере градации фактора А и фактора В являются фиксированными (т.е. нас интересует изменчивость частоты бесполосых морф именно в этих двух популяциях и именно за эти три года), то таблица с результатами дисперсионного анализа будет иметь следующий вид (таблица 3.5).

Таблица 3.4

 

градации фактора А фиксированы

градации фактора А случайны

градации фактора В фиксированы

градации фактора В случайны

Таблица 3.5

Источник

изменчивости

2

df

MS

F

p

А

0,392

1

0,392

2,13

0,145

В

7,404

2

3,702

20,12

<0,001

А×В

1,035

2

0,518

2,82

0,060

X

8,831

5

1,766

9,60

<0,001

Z

191,668

1044

0,184

Y

200,499

1049

Таким образом, нами доказано только влияние фактора В, т.е. года проведения исследования. Временная компонента изменчивости весьма значима, хотя при этом имеется и некоторая тенденция к проявления совместного влияния территориального и временнóго аспектов исследования.

Оценку силы влияния каждого из факторов можно провести двумя способами.

Первый способ. Оценить силу влияния каждого из факторов (или их совместного воздействия) можно, используя формулу:

(3.11)

Уровень значимость этой оценки проверяется путем сравнения рассчитанного соответствующего значения величины (3.11) с табличным значением критерия Хи-квадрат с соответствующим числом степеней свободы (3.5)–(3.7).

Для нашего примера, сила влияния временного фактора равна:

.

Уровень значимости этой оценки можно определить рассчитав по формуле (3.11) величину: N·ή2 = 1050·0,0369 = 38,75.

Эта величина значительно превосходит табличное значение критерия Хи-квадрат с числом степеней свободы dfВ = 2 (). Следовательно, нулевая гипотеза должна быть отвергнута.

Отметим, что полученные оценки при проведении ДДА имеют несколько смещенный характер и степень этого смещения зависит от различия в количестве исследованных объектов для каждого сочетания градаций каждого фактора. При использовании выборок одного порядка этим смещением можно пренебречь.

Расчет силы влияния фактора (факторов) таким способом правомочен только в случае использования модели с фиксированным факторами.

Второй способ базируется на разложения факториальных средних квадратов. В случае проведения ДДА формулы, для такого разложения зависят от типа используемой модели (см. выше); в итоговом виде они представлены в таблице 3.6.

Таблица 3.6

 

градации фактора А фиксированы

градации фактора А случайны

градации фактора В фиксированы

градации фактора В случайны

где n* - усредненный по всем градациям всех факторов объем выборки:

.

(3.12)

Если предположить (как и ранее), что мы имеем дело с двумя фиксированными факторами, то используя формулы, приведенные в левом верхней левой ячейке таблицы 3.6, и формулу (3.12) получим следующие оценки:

;

;

;

.

Тогда, сила влияния факторов А, В и их сочетания А×В можно найти по формулам:

;

(3.13)

;

(3.14)

;

(3.15)

где

.

(3.16)

При сравнении оценок силы влияния главных факторов и их сочетания, полученных двумя представленными способами (табл. 3.7) для данных нашего примера можно заметить, что они достаточно близки, что дает некоторое преимущество при использовании первому способу (без разложения средних квадратов), однако, только в случаях использования модели ДДА с фиксированными факторами А и В.

Кроме того, мы использовали формулы (1.18)-(1.21) и рассчитали доверительный интервал для оценок, полученных вторым способом. При расчетах, мы использовали для оценки n* в формулах (1.18) и (1.19) формулу (3.12) для взаимодействия факторов, и формулу (1.17) для главных факторов А или В, предварительно заменив s на a или b, соответственно.

Как и следовало ожидать на основании результатов непосредственного влияния факторов и их сочетания на исходный признак (см. табл. 3.5) только фактор В не включает в свой 95 % доверительный интервал 0, только в отношении этого фактора нулевая гипотеза может быть отвергнута.

Таблица 3.7

Показатели

Методы оценки силы влияния

первый способ

второй способ

0,0020

0,0020

[-0,0012; 0,815]

0,0369

0,0519

[0,0128; 0,695]

0,0052

0,0099

[-0,0014; 0,391]

Некоторые авторы, например Г.Ф.Лакин (1980) предлагает не включать в сумму (3.16) компоненты средних квадратов фактора (факторов, или их сочетания), если в ходе ДДА не доказано его (их) влияние на признак, и рассчитывать силу влияния признака без его (их) компоненты.

Вперед К следующему разделу Назад К предыдующему разделу Начало К концу разделу Список К оглавлению