Вперед К следующему разделу Конец К концу раздела Список К оглавлению

ДИСПЕРСИОННЫЙ АНАЛИЗ КАЧЕСТВЕННЫХ ПРИЗНАКОВ (ANOQVA) В ПОПУЛЯЦИОННО-ФЕНЕТИЧЕСКИХ ИССЛЕДОВАНИЯХ :
Выпуск 1


С.С. Крамаренко
ДИСПЕРСИОННЫЙ АНАЛИЗ КАЧЕСТВЕННЫХ ПРИЗНАКОВ (ANOQVA)

Введение

В современной теории статистики качественные (номинальные) признаки занимают особое положение и представляют собой единственный случай, когда объекту невозможно присвоить какое-либо цифровое значение. Градации номинального признака нельзя даже расположить в виде какого-то более или менее упорядоченного набора. Лишь две математические операции сравнения могут быть применены для признаков такого типа – “равно” и “не равно”.

Такие признаки еще называют альтернативными, поскольку их вариации взаимно независимы и каждая – есть элемент ограниченного набора возможных альтернатив. При этом наличие только двух альтернативных вариант (“да” или “нет”, “0” или “1”, “+” или “–”) занимает особое положение и в этом случае признаки называют диморфными, т.е. имеющими только две вариации (морфы). В случае присутствия нескольких вариаций, признаки называются полиморфным (в узком понимании этого слова).

Особенности изменчивости объекта на основе анализа его номинальных признаков также может быть охарактеризовано функцией распределения. Для диморфных признаков эта функция определяется законом биномиального распределения, а для полиморфных – полиномиального распределения.

Представим, что в отношении события А производится n независимых испытаний и в каждом испытании вероятность появления этого события постоянна – P(A) = ρ. Соответственно, вероятность появления события противоположного А, также имеет постоянную вероятность – P(Ā) = 1 – ρ.

В реальных ситуациях a priori редко бывает известно истинное значение вероятности интересующего нас события и приходится оперировать с его выборочной оценкой – относительной частотой события (p):

,

(1)

где m – число появлений интересующего нас события в n независимых испытаниях.

Вероятность события и его оценка (т.е. частота) не обязательно будут совпадать, но согласно закону больших чисел с увеличением числа экспериментов до бесконечности отклонение относительной частоты от теоретической вероятности будет стремиться к нулю.

Вероятность того, что интересующее нас событие А в n экспериментах будет зарегистрировано ровно m раз равна:

.

(2)

Дробь, стоящая в правой части формулы (2), дает значения биномиальных коэффициентов, согласно формуле бинома Ньютона, поэтому данное распределение и называется биномиальным.

Как и любое другое, биномиальное характеризуется специфическими параметрами распределения. Первый из них (μ) определяет наиболее вероятное число появления ожидаемого результата:

.

(3)

Другим параметром биномиального распределения служит варианса частоты m события А в n независимых испытаниях:

.

(4)

В случае наличия более чем двух альтернативных вариаций, т.е. когда существует не два, а k возможных исходов (взаимно независимых) испытания, каждый из которых характеризуется своей собственной вероятностью (и, соответственно, частотой pk), варианса может быть рассчитана согласно формулы:

.

(5)

Варианса, как известно, характеризует меру неопределенности результатов эксперимента и достигает своего максимального значения, как и следует ожидать, в том случае, когда вероятности (и частоты) разных событий будут равны. В случае биномиального распределения, этот максимум достигается в случае, когда p = 0,5. А в случае полиномиального распределения, когда p1 = … = pk = 1/k.

В своей “классической” форме дисперсионный анализ (ДА), разработанный в 1925 г. Р.Фишером для анализа агрономических данных, предполагает разделение всей суммарной изменчивости дисперсионного комплекса на две части – факториальную (контролируемую условиями эксперимента) и остаточную (т.е. не контролируемую). Фишеровский ДА рассчитан на анализ количественных признаков, подчиняющихся нормальному закону распределения. Более того, вторым условием применимости ДА является сходный уровень вариабельности зависимой переменной в пределах каждой градации (или сочетания градаций) независимых факторов.

Для номинальных признаков ДА практически не используется; поскольку более распространенным способом проверки равенства частот в нескольких группах являются различные критерии оценки сопряженности (в частности, c 2 Пирсона). В то же время, необходимо отдать должное Н.А. Плохинскому (1969; 1970), который практически в каждой своей книге, наряду с алгоритмами “классического” фишеровского ДА, приводит схемы различных вариантов дисперсионного анализа (одно-, двух-, трехфакторного) качественных признаков (ДАКП). Видимо оттуда они “перекочевывают” в другие издания по биометрии для селекционеров, например в учебник Е.К. Меркурьевой (1970). Сходный алгоритм однофакторного ДА качественных признаков был описан в учебнике “Биометрия” (1973, с. 302) Г.Ф. Лакина, однако, уже в переиздании этого учебника (1980) методики ДАКП были опущены. Нет их и в других классических и базовых учебниках и пособиях по биометрии для биологов, например у П.В. Терентьева и Н.С. Ростовой (1977), В.Ю. Урбаха (1964; 1975) и др.

Скорее всего, такое отношение к ДАКП можно объяснить “конкуренцией” со стороны критерия c 2 Пирсона (и его аналогов), который очень часто решает те же задачи, но с меньшими затратами времени. Использование критерия Мантеля-Хейзеля, а также бурное развитие лог-линейных моделей, сопряженное с усовершенствованием и доступностью компьютерной техники, также не способствовали развитию ДАКП, в результате чего этот метод практически не используется в современных научных исследованиях. Например, при поиске в сети Интернет с помощью системы Google мы нашли только два упоминания об использовании процедуры ДАКП. Эти примеры имели отношение к медицинским исследованиям, где методы неколичественного анализа ввиду специфичности самого объекта изучения играют традиционно большую роль.

В то же время, если проверяется гипотеза о достоверном различии частот признака в нескольких группах, подвергающихся разным уровням воздействия того или иного фактора (факторов), то, по сравнению с использованием критерия c 2 Пирсона, ДА имеет определенные преимущества. Например, важное значение для исследователя имеет возможность получить не только оценку значимости проверяемой гипотезы, но и рассчитать оценку силы влияния фактора.

Также, как и в случае классического ДА, основной задачей ДА качественных признаков является разложение суммарной изменчивости () на составляющие компоненты – факториальную () и остаточную (). При проведении двухфакторного ДА, факториальная варианса соответственно будет разделена на три компоненты – две компоненты определяют воздействие главных факторов, а третья – их совместное влияние. В общем случае этот алгоритм пригоден для анализа произвольного количества m-факторов. Наиболее важным условием применимости ДАКП является равенство или, если это невозможно, близость объемов выборок (они должны быть по возможности одного порядка).

Особое значение ДА неколичественных признаков приобретает в последние годы в связи с бурным развитием популяционно-генетических методов анализа структурированности природных популяций различных организмов. Кроме классического метода, базирующегося на использовании частот генотипов и аллелей, все большего развития получают методы анализа более тонкой структуры гена, в первую очередь, аллозимный анализ и анализ молекулярной изменчивости гаплотипов (по аналогии с генотипами). Для математической интерпретации результатов исследований Экскоффиером в начале 90-х прошлого столетия разрабатывается принципиально новый метод, который по аналогии с Дисперсионным анализом (ANOVA в англоязычной литературе) получает название AMOVA (Analysis of Molecular Variance), т.е. Анализ Молекулярной Изменчивости. Кроме созвучного названия, AMOVA имеет еще много общего с классическим Дисперсионным анализом и, прежде всего, это тот же принцип разложения суммарной изменчивости на отдельные компоненты, предложенный Р.Фишером.

Представляет интерес обобщение методологии дисперсионного анализа качественных признаков с учетом опыта генетического исследований последних 20 лет в виде пакета алгоритмов и методик, названный нами ANOQVA (Analysis of Qualitative Variability). Это позволит, но нашему мнению, как придать второе дыхание исследованиям по фенетике популяций (особенно, в случае их сложной иерархической структурированности), так и более эффективно использовать алгоритмы ДАКП в других областях общей экологии. Далеее мы приводим подробное описание методики ANOQVA и детальные примеры ее использования.

Вперед К следующему разделу Начало К концу разделу Список К оглавлению