Дальше | Назад | Начало | Конец | Список |
5.3. Теория и практика двухфакторного дисперсионного анализа
Формулировка задачи
Пусть имеется выборка из m значений X1, X2, …, Xm некоторого гидробиологического показателя, измеренного в количественной шкале. Изучается влияние, которое оказывают на отклик два качественных признака – фактор A, который имеет k уровней (градаций) A1, ..., Ak , и фактор B, разбитый на n уровней B1, ..., Bn
Необходимо:
В рамках этой задачи весьма типична ситуация, когда один из факторов (например, фактор
B) является "мешающим": он включается в рассмотрение по той причине, что его влияние следует элиминировать, чтобы обнаружить и оценить индивидуальное влияние фактора A.Общая методика анализа, как и в случае одного фактора, заключается в разложении общей вариации совокупности результатов наблюдения на частные вариации, обусловленные воздействием отдельных факторов и их комбинаций, и на остаточную вариацию, обусловленную случайными причинами. Оценка достоверности влияния факторов проводится по методу Фишера путем расчета отношения дисперсии, характеризующей статистическое колебание групповых средних по отдельным факторам, к дисперсии, характеризующей случайную вариацию.
Рекомендуемая литература та же, что и для раздела 5.2.
Математический лист
Предполагается, что измеряемая величина X есть результат действия факторов A и B и составляющей e , которая является независимой, нормально N(0,s 2) распределенной случайной величиной: .
Принимается аддитивная и независимая модель действия факторов:
, причем , . (5.43)Величины
aj и bi называются вкладами факторов. Последние два условия всегда можно выполнить масштабированием величин aj и bi за счет изменения величины c.Для каждого наблюдения из рассматриваемой совокупности справедливо уравнение:
xij
= c + aj + bi + e ij, i =1, ..., n; j =1, ..., k. (5.44)Обычно наблюдения представляют структурной таблицей статистического комплекса. Приведем простейший двухфакторный комплекс, в которой каждому сочетанию (
Aj, Bj) уровней (градаций) факторов, т.е. одной клетке таблицы, соответствует одно наблюдение (в таблице сочетание символов “( )^” обозначает статистическую оценку групповых средних):
Фактор B |
Фактор AA1 A2 ... Ak |
Средние по строкам |
B 1B2 ... Bn |
x 11 x12 ... x1kx21 x22 ... x2k ... xn1 xn2 ... xnk |
x 1· =(c+b1)^x2· =(c+b2)^ ... xn· =(c+bn)^ |
Средние по столбцам |
x· 1= x· 2= x· k=(c+a1)^ (c+a2)^ (c+ak)^ |
x· · =c^ |
Основное тождество дисперсионного анализа
Оценки c, bi, aj могут быть получены с помощью метода наименьших квадратов (МНК) минимизацией суммы (5.45)
Основываясь на МНК-оценках
, ,, (5.46)
введем следующие обозначения:
, ;(5.47)
;(5.48)
.(5.49)
Тогда справедливо следующее соотношение:
, (5.50)
т.е. полная сумма квадратов отклонений является суммой квадратов вкладов по факторам и квадратов случайных отклонений (или остатков
). Другими словами, полное рассеяние есть сумма вариации под влиянием факторов и случайной составляющей.Проверка нулевых гипотез
По имеющимся наблюдениям требуется проверить предположение об отсутствии влияния фактора A (или B) на результат измерения, т.е. проверить гипотезы
HA
: a1 = a2 = . . . = ak = 0HB: b1 = b2 = . . . = bn = 0 .
Основой процедуры проверки гипотезы является сравнение двух статистически независимых оценок дисперсии s
2.Одна из них, s
2* оценивает дисперсию вне зависимости от того, верна или нет гипотеза HA (или HВ) и основана на сумме квадратов случайных отклонений:. (5.51)
Другая, s
2** оценивает дисперсию, если HA (или HВ) верна. Для гипотезы HA эта дисперсия основана на сумме квадратов разностей “между столбцами”, т.е. по уровням фактора A:. (5.52)
Если гипотеза
HA верна, то отношение(5.53)
имеет
F-распределение Фишера с (k -1) и r степенями свободы. ЕслиFA
³ F1-a , (5.54)где
F1-a – квантиль этого распределения порядка 1- a , a – выбранный уровень значимости, то гипотеза HA отклоняется.Вместо (5.54) можно использовать эквивалентную процедуру: гипотеза
HA отклоняется, еслиP{ F ³ FA } £ a, (5.55)
где
P{ F ³ FA } – вероятность при справедливости HA получить значение, большее, чем FA; F – случайная величина, имеющая распределение Фишера.Для проверки гипотезы
HВ используют сумму квадратов разностей "между строками", то есть по уровням фактора B: .(5.56)Аналогичным образом, если отношение
велико, то гипотеза HB отклоняется.
Результаты расчетов
Формирование речных сообществ, их видовой состав и продуктивность гидробионтов находятся в постоянной динамике под воздействием большого количества экологических факторов. Будем оценивать временнỳю изменчивость сообществ, когда набор видов и количество особей претерпевают ежедневные, сезонные и многолетние колебания под воздействием температурного режима, мгновенной гидродинамики водотоков, сбросов токсикантов и т.д. Для прогнозирования динамики экологических систем методами статистического анализа существует обширный и специализированный математический аппарат, который остается за рамками настоящего изложения. Подробно теоретические и прикладные вопросы анализа хронологических трендов экосистем с использованием функциональных предикторов временных рядов рассматривались нами ранее [Розенберг с соавт., 1994]. Здесь мы ограничимся изложением частной методики дисперсионного анализа для оценки влияния многолетней и сезонной составляющих на общие показатели обилия зообентоса.
На основе данных из базы по малым рекам Самарской области сформируем выборку из суммарных значений численности Ns (экз./м2) и биомассы Вs (г/м2) зообентоса и индекса разнообразия Шеннона H для каждой пробы наблюдений. Данные по численности и биомассе предварительно прологарифмируем. Каждому значению варьируемой переменной поставим в соответствие три фактора: водоток, из которого взяты пробы, год исследования (с 1988-99 гг.) и порядковый номер месяца (с 5 по 9) отбора пробы.
Для оценки влияния регионального фактора выполним предварительно "разведывательный" однофакторный анализ по всем 33 градациям, соответствующим отдельным рекам (см. табл. 5.8).
Таблица 5.8
Результаты проверки гипотезы о влиянии места отбора проб на логарифм численности зообентоса по F-критерию
Источник вариации |
Сумма квадратов |
Степеней свободы |
Средние квадраты |
F -отношение |
p -значениe |
Между группами |
85.58 |
32 |
2.67 |
0.99 |
0.49 |
Внутри групп |
1357.12 |
500 |
2.71 |
||
Итого |
1442.71 |
532 |
Оговоримся, что проблемы пространственной изменчивости, отражающей распределение показателей обилия в зависимости от географических координат поверхности, неизмеримо сложнее описываемого примера, поэтому в данном контексте речь идет не об оценке влияния места отбора пробы вообще, а о конкретном разбиении влияющего фактора на градации. Во-первых, проблематично само понятие “река”, как средство обобщения гидробиологических данных, т.к. вариации данных между станциями одной реки, как правило, превышают межрегиональную вариацию (см. фиг. “а” рис. 5.10). Во-вторых, сама природа дисперсионного анализа предполагает тенденцию к недооценке влияния фактора при числе градаций больше 10. Однако выводы табл. 5.8 дают нам формальные основания осуществить дисперсионный анализ в градациях остальных двух факторов: “год” – “месяц”, основные результаты которого приведены в табл. 5.9.
Рис 5.10 Диаграммы изменения групповых средних по результатам дисперсионного анализа показателей обилия и биоразнообразия зообентоса
Таблица 5.9
Результаты двухфакторного дисперсионного анализа влияния временных факторов на показатели обилия зообентоса
Выборки для анализа |
Источник вариации |
Сумма квадратов |
Степеней свободы |
Средние квадраты |
F -отноше-ния |
p -значения |
1. Численность зообентоса в пробе (логарифм Ns) |
Фактор “Месяц” |
24.23 |
4 |
6.06 |
2.58 |
0.0365 |
Фактор “Год” |
208.12 |
13 |
16.01 |
6.82 |
0.0 |
|
Остаточная |
1208.84 |
515 |
2.35 |
|||
Всего |
1442.71 |
532 |
||||
2. Численность Chironomidae в пробе (логарифм Ns) |
Фактор “Месяц” |
25.65 |
4 |
6.41 |
2.23 |
0.0651 |
Фактор “Год” |
80.38 |
13 |
6.18 |
2.15 |
0.0108 |
|
Остаточная |
1341.48 |
446 |
2.87 |
|||
Всего |
1455.08 |
463 |
||||
3. Индекс Шеннона H (по численности зообентоса) |
Фактор “Месяц” |
11.93 |
4 |
2.98 |
3.95 |
0.0036 |
Фактор “Год” |
46.6 |
13 |
3.58 |
4.74 |
0.0 |
|
Остаточная |
388.6 |
514 |
0.756 |
|||
Всего |
442.16 |
531 |
||||
4. Биомасса зообентоса в пробе (логарифм Bs) |
Фактор “Месяц” |
40.08 |
4 |
10.02 |
3.09 |
0.0157 |
Фактор “Год” |
203.16 |
13 |
15.63 |
4.82 |
0.0 |
|
Остаточная |
1451.89 |
448 |
3.24 |
|||
Всего |
1694.25 |
465 |
||||
5. Индекс плотности населения |
Фактор “Месяц” |
145189 |
4 |
36297 |
1.28 |
0.27 |
Фактор “Год” |
598507 |
13 |
46039 |
1.62 |
0.0762 |
|
Остаточная |
12727600 |
448 |
28409 |
|||
Всего |
13472500 |
465 |
||||
6. Логарифм индекса плотности населения ln((Ns*Bs)1/2) |
Фактор “Месяц” |
22.49 |
4 |
5.62 |
2.09 |
0.081 |
Фактор “Год” |
119.1 |
13 |
9.16 |
3.40 |
0.0001 |
|
Остаточная |
1206.8 |
448 |
2.69 |
|||
Всего |
1356.6 |
465 |
По существу рассматриваемой проблемы выполненные расчеты влияния факторов позволяют сделать следующие выводы:
Представляет интерес сравнить результаты двухфакторного и однофакторного анализа, например, для выборки 2 (численность хирономид). Если оценить по Фишеру локальное влияние сезонного фактора, то его вклад в общий статистический разброс численности следует трактовать как значимый (статистика Фишера
F = 2.80, а соответствующее ему значение p = 0.0256). При переходе к двухфакторной схеме оказалось, что часть дисперсии, приписываемой в однофакторной схеме сезонному фактору, на самом деле объясняется многолетней составляющей (например, в разные годы экспедиции проводились во время разных месяцев).Хотя у нас нет формальных оснований отвергнуть нулевую гипотезу о равенстве групповых дисперсий по тестам Кохрена и Бартлетта для данного примера, однако значения уровней значимости для обоих критериев находились в слишком опасной близости от порогового значения (a
= 0.05):Поскольку в рамках схемы двухфакторного дисперсионного анализа оценка различий групповых средних представляет собой нетривиальную задачу, выполним на основе однофакторного анализа с использованием метода Шеффе выделение в течение сезона гомогенных групп значений фактора, т.е. комбинаций месяцев, между которыми нет значимых отличий в средних значениях (см. табл. 5.10). Например, для численности хирономид (выборка 2 табл. 5.9) можно составить три последовательности месяцев, отмеченных затененными клетками таблицы 5.10, внутри которых данные можно считать статистически однородными: а) с мая по июль, б) с июня по август, в) с июля по сентябрь. Таким образом, не отвергнув нулевую гипотезу об отсутствии влияния фактора сезонности для этого показателя, мы можем ставить вопрос об объединении в гомогенные группы некоторые подмножества уровней фактора.
Таблица 5.10
Результаты анализа множественных сравнений для среднемесячных значений показателей обилия зообентоса
Дальше | Назад | Начало | Конец | Список |