Дальше К следующему разделу Назад К предыдующему разделу Конец К концу разделу Список К оглавлению На главную На главную страницу сайта

Глава 3. ТЕОРИЯ И ПРАКТИКА МАТЕМАТИЧЕСКОГО ПЛАНИРОВАНИЯ ЭКСПЕРИМЕНТА И СТАТИСТИЧЕСКАЯ ОБРАБОТКА ДАННЫХ ЭКОЛОГИЧЕСКИХ ИССЛЕДОВАНИЙ

_________________________________________________________________________

3.1. ТЕОРЕТИЧЕСКИЕ ОСНОВЫ ОПТИМАЛЬНОГО ПЛАНИРОВАНИЯ ЭКСПЕРИМЕНТА И ОБРАБОТКИ МНОГОФАКТОРНЫХ ОПЫТОВ

Г.С. Розенберг, В.К. Шитиков, Н.А. Цейтлин

Составляющие научного исследования: теории, гипотезы, модели

Мудрость Бога учла заранее

пользу вечного единения:

где блаженствует змей познания,

там свирепствует червь сомнения.

И. Губерман

Для современной науки характерно непрерывное осознание сложности изучаемых объектов (Розенберг, Смелянский, 1997). Если раньше исследователи могли изучать лишь простые системы, в которых выделялись явления или процессы одной физической природы, зависящие от малого числа переменных, то с развитием математической теории эксперимента и возникновением вычислительной техники сложились реальные предпосылки для того, чтобы изучать сложные объекты. Одна из характерных черт сложных систем - их многомерность, т.е. для описания таких объектов используется большое число переменных различной физической природы. Например, при разработке концепции устойчивого природно-хозяйственного развития регионов Волжского бассейна (Розенберг, Краснощеков, 1996) было учтено более 800 факторов, отражающих экологические, экономические, географические, природно-климатические, социальные и другие условия.

Цель науки вообще (и экологии, в частности) заключается в обосновании генерализаций - общих суждений об определенной области действительности. При изучении сложного объекта в условиях недостатка априорной информации о его внутренних функциональных взаимосвязях возникают, как правило, методологические трудности на всех этапах исследования - от формулирования целей до интерпретации конечных результатов. У истоков любого исследования находится теоретическая идея (Розенберг и др., 1999), объясняющая некоторый фрагмент действительности, поэтому интерпретация проблемы в контексте теории - необходимое, хотя и недостаточное условие еe научности. Возможно, это самый трудный этап обоснования научной работы, поскольку не может существовать никаких правил и инструкций, предписывающих изучать именно этот, а не какой-либо иной фрагмент универсума экологических связей и отношений.

Далеко не каждая глубокая теоретическая идея признается научной, а соответственно поставленные в ее контексте вопросы являются проблемами "нормальной" науки. Во-первых, не считаются научными проблемы, поставленные в контексте неопровержимых идей, имеющих характер абсолютных истин. Например, идея об угнетении и гибели биосферных компонентов в условиях катастрофически высоких уровней загрязнения не содержит никаких решаемых научных проблем. Во-вторых, не проблематизируются противоречивые и принципиально непознаваемые теоретические идеи. Например, предположение, что “пространство порождается объединением субстанций генерирующих потоков некоторых уровней строения систем, более высоких, чем времяобразующий уровень” (Левич, 2000), на современном этапе вряд ли может быть подтверждено или опровергнуто. В-третьих, поскольку в качестве научной проблемы могут рассматриваться только генерализации, то к таковым не относятся суждения, принципиально ориентированные на частности (хотя они могут составлять материал, из которого складываются обобщающие умозаключения).

Наука развивается посредством опровержения своих собственных догм, однако этот процесс совершается в рамках определенной системы эпистемологических правил, регламентирующих научный вывод. Принцип многообразия теорий, объясняющих одну и ту же совокупность фактов, способствует целенаправленному переходу от одной теории к другой. Задача науки заключается в том, чтобы искать правдоподобные конкурентные гипотезы и пытаться опровергнуть существующие теории и всю устоявшуюся парадигматическую картину мира (Popper, 1963).

В экологии, как и в большинстве других естественных наук, теории обосновываются посредством наблюдения событий и нахождения их статистических регулярностей. Вероятностная трактовка теорий имеет дело уже не с единичным событием, а с объективной возможностью события, причем никакое единичное событие не может опровергнуть теорию. Иное дело, что много событий, не объясняемых теорией, делают ее сомнительной. Во многих случаях можно сформулировать статистическую гипотезу о соответствии существующей теории экологическому объекту. Для подтверждения (или не подтверждения) теории практикой производятся многократные независимые измерения параметров объекта, которые специальным образом сравниваются с результатами, предсказанными теорией. Если оснований для отклонения проверяемой гипотезы об адекватности нет, действующая теория сохраняет силу. Если же проверяемая гипотеза об адекватности отклоняется (в пользу противоположной гипотезы о неадекватности), то перед теоретиками ставится задача о ревизии или совершенствовании "старой" теории. Рано или поздно существующая теория сменяется новой, более совершенной.

Согласно общей установке, законы природы делятся на динамические и статистические. Считается, что первые выполняются со всей необходимостью и содержат детерминированные правила, а вторые выполняются лишь "в среднем". Большинство законов природы, тем не менее, не являются ни чисто динамическими, ни чисто статистическими. Механизм сопоставления свойств абстрактных и реальных объектов реализуется в моделях, функции которых заключаются в обслуживании понимания, обеспечении понятийности и создании предсказаний (Горбань, Хлебопрос, 1988). В классе моделей, основанных на использовании методов прикладной статистики (Шитиков и др., 2004), распространены два основных варианта.

1. Модели, основанные на статистическом происхождении данных. Это предположение подразумевает, что набор данных является выборкой из бесконечной генеральной совокупности объектов, чье распределение подчиняется определенному вероятностному закону. Более того, эта выборка должна быть сформирована независимым случайным образом из всей генеральной совокупности. Принятие этой гипотезы (в реальных ситуациях весьма сильной) даeт возможность применять к полученным измерениям теоретико-вероятностные подходы, мысленно дополняя данные до бесконечного числа объектов, т.е. фактически моделью такого набора данных является вся генеральная совокупность с ее законом распределения.

Реальная практика использования этих моделей непосредственно связана с необходимостью проверять непротиворечивость сформулированного предположения по определенному механизму, который описан в разделе математической статистики о проверке статистических гипотез. Проблематикой большинства статистических исследований в биологии, медицине, экономике, гидрологии и других науках является то обстоятельство, что строгой проверки провести не удается (как правило, просто недостаточно данных), и степень обоснования гипотезы может вызывать сомнение. Но поскольку в руках исследователя часто просто не оказывается других инструментов, он вынужден принимать в качестве рабочей даже весьма малодостоверную гипотезу.

2. Модели, основанные на гипотезе о порождении данных динамическим законом. Можно сделать предположение о том, что данные имеют не статистическую природу, а получены как результат детерминированного функционирования определенной системы, но, возможно, с наложением различного рода флуктуаций, которые, в свою очередь, могут быть описаны статистическими законами. Выбор конкретного вида динамического закона осуществляется исходя из априорных соображений, положений других теорий, интуиции исследователя и т.п. Этот закон может не носить на себе физического осмысления механизмов системы. Например, исследователь решает, что данные интенсивности энергетического обмена изучаемых животных в зависимости от их индивидуального веса могут быть распределены "по закону параболы" при наличии шума, который имеет нормальное распределение с дисперсией, которую можно оценить из имеющихся данных.

Результаты анализа экспериментальных данных представляются в виде эмпирических закономерностей, компактно описывающих экспериментальные данные. При этом, принимая гипотезу о динамическом законе, исследователь зачастую не в состоянии в полной мере оценить ее достоверность, поэтому почти все такие модели оказываются в той или иной степени феноменологическими. В то же время модели типа 2 напрямую связаны с функцией прогнозирования (Розенберг и др., 1994).

Прогнозирование как конечная цель естественнонаучных теорий часто ускользает от внимания ученых. Между тем оно напрямую связано и с такими целями научного исследования, как “объяснение” или “раскрытие сущности” явлений. Прогнозирование в форме требования воспроизводимости публикуемого результата является - если угодно, по определению - конечной целью и основной чертой естественных наук, отличающих их от магии. Следует отметить, что в моделях типа 1 также активно присутствует элемент прогнозирования (например, "тип освещения будет влиять на репродуктивную функцию лисиц"), однако он в значительно меньшей мере носит количественный характер.

Научный прогноз имеет форму гипотезы следующего типа: воспроизведение в эксперименте определенных контролируемых условий U всегда приведет к одному и тому же результату V в пределах оговоренной точности a (Алимов, 1980). Контроль условий эксперимента U и получение результата V означают не что иное, как измерение определенных физических величин U и V. Верификация прогнозирующей модели всегда состоит в многократном воспроизведении условий эксперимента U и измерении получаемых результатов V, т.е. в проведении серии однородных испытаний. Такое эмпирико-индуктивное обоснование надежности прогноза U® V нельзя, конечно, считать непогрешимым, поскольку оно напрямую связано с аккуратностью измерений величин U, V и объемом повторения однородных проверочных испытаний. Ю. Нейманом (1968) для многократно проверенного прогноза применен выразительный термин перманентность, воспользовавшись которым можно сказать, что конечной целью естественнонаучного исследования является отыскание новых перманентностей.

Математическая статистика XX века развивалась под сильным влиянием концепции максимального правдоподобия, сформулированной Р. Фишером в 1912 г. и ставшей одним из краеугольных камней большинства современных методов. К сожалению, есть три обстоятельства, мешающие в полной мере использовать преимущества подхода, основанного на принципе максимального правдоподобия. Это - возможное смещение оценок конечных выборок (а с другими мы, к сожалению, не имеем дела), потребность в существенной априорной информации (знании вида закона распределения исследуемых случайных величин) и вычислительные трудности. С развитием компьютерной техники последние не имеют принципиального характера, зато с первыми двумя приходится постоянно считаться.

Смещение может возникать по трем причинам. Первая из них - выборочное смещение, обусловленное систематической неоднородностью условий наблюдения выборочных значений случайной величины в ходе эксперимента. Другой источник смещения - ошибка измерения, возникающая, как правило, из-за различий в измерительных средствах или навыках оператора. Чтобы избежать таких смещений, обычно используют различные специальные приемы метрологии. Наконец, последний источник смещения обусловливается моделью (т.е. формулой), по которой вычисляется статистика. Если мы считаем, например, что имеет место нормальное распределение, то пользуемся соответствующими формулами для вычисления среднего, дисперсии и других интересующих нас величин. И нас не должно удивлять возникновение смещения, поскольку фактическое распределение было совершенно другим.

Основными принципами научных исследований, позволяющими компенсировать смещение выборок, являются рандомизация (искусственное внесение случайности в эксперимент для превращения некоторых систематических ошибок в случайные) и концепция повторных (параллельных) опытов. Представления о рандомизации и повторных наблюдениях оказали глубокое влияние как на теорию планирования эксперимента, так и на теорию выборочного метода с его широчайшей областью приложений. Существует целый ряд работ, уточняющих и развивающих эти понятия: оценка различных вариантов ограничений на рандомизацию Ю. Неймана (1968), исследования П. Махаланобиса в области взаимопроникающих выборок (Эфрон, 1988), методы случайного баланса, дублированный отбор и др. Рандомизирующие процедуры настолько важны, что их неоднократно "открывали" вновь, как, например, метод хаотизации И. Пинскера, предполагающий рандомизацию вектора откликов при фиксированной матрице плана, или определение меры "диссонанса" двух матриц: классифицирующей и случайно перемешанной (Розенберг, 1975). Еще одним "открытием" роли рандомизации явилась и статья С. Хелберта (Hurlbert, 1984).

“Точно так же, как в искусстве политики, в организации статистического исследования всегда имеет место компромисс между желаемым и возможным” (Киш, 1977). К сожалению, в ходе реализации плана эксперимента не все получается так, как задумано. Возникают сбои, пропуски, вновь открывшиеся обстоятельства, что приводит к очевидным или скрытым некорректностям в таблицах наблюдений. И "центр тяжести" исследования переносится с задачи получения достоверных данных на проблему искусной их обработки. Приходится либо разрабатывать специальные, более сложные, методы извлечения продуктивных гипотез и обоснования выводов, либо пытаться исправить (“отремонтировать”) полученную выборку. Одна из таких возможностей - ориентация на методы робастного оценивания. Например, непараметрическая статистика предоставляет широкий набор способов и формул проверки гипотез, работоспособных при любых обстоятельствах (например, при любых распределениях из заданного класса). Бурное развитие получили алгоритмы, основанные на идеях имитационного моделирования, методах Монте-Карло и численного ресамплинга (см. разд. 3.2). Первую такую процедуру "скользящего контроля", позволяющую значительно снизить выборочное смещение, предложил еще в 1949 г. М. Кенуй (Эфрон, 1988). Идея чрезвычайно проста - последовательно исключать из выборки по одному наблюдению, обрабатывать всю оставшуюся информацию и предсказывать результат в исключенной точке. Развитие этих идей в современных бутстреп-методах дает возможность исследователю извлечь из выборок наблюдений, полученных с таким трудом, максимум имеющейся в них информации.

Оценка погрешности измерений

Опыт - это способность совершать ошибки со знанием дела.

А. Михеев

Значение термина измерение не вполне однозначно. Традиционно измерение в узком смысле трактуется как операция, в результате которой получается численное значение величины, причем числа должны соответствовать наблюдаемым свойствам, фактам, качествам, законам науки и т.д. В этом контексте речь идет о погрешностях результатов измерений и их связи с ошибками эксперимента (Вознесенский, 1981; Основные термины…, 1989). В настоящее время признание получила репрезентативная теория (Stevens, 1946; Пфанцагль, 1976) которая понимает измерения в широком смысле - как получение, сравнение и упорядочение информации, что подразумевает наличие некой системы "эталонов", по которой предполагается смысловая оценка анализируемых объектов на основании интенсивности измеряемых свойств. Согласно теории математических моделей А. Тарского (Гастев, 1975): "Измерить, значит установить однозначное (гомоморфное) отображение эмпирической реляционной структуры в числовую реляционную структуру" (реляционная структура - это множество объектов вместе со всеми отношениями и операциями на нем).

Следуя В.А. Вознесенскому (1981), выделим среди источников погрешностей измерения пять групп:

1) погрешности, вызванные объектом исследования: изменение объекта во времени (смыв почвы, разложение органического материала, увеличение возраста особей и т.п.); неоднородность объекта в пространстве (влияние структурных особенностей материала в месте контакта измерительного датчика, отличия между наблюдательными площадками и т.д.); влияние процесса измерения на состояние объекта (изменение поведения или состояния животного в исследуемой популяции под влиянием наблюдения, стрессы при биофизических измерениях с вживленными датчиками и т.п.);

2) погрешности оператора, связанные с уровнем его квалификации (обучение, опыт, сознание ответственности) и психофизиологическим состоянием (усталость, болезнь, возбуждение, торможение, реакция на внешние раздражители и т.п.);

3) инструментальные погрешности, связанные с погрешностями измерительных приборов и испытательных машин;

4) методические погрешности, связанные с ошибочными или упрощенными представлениями о закономерностях проявления некоторого свойства объекта, а также недостаточный уровень разработки методики проведения измерительных операций (отбор образцов, последовательность операций, обоснованность допусков, полнота учета факторов и ограничений на них, эффекты взаимодействия объекта с измерительным комплексом и т.д.);

5) погрешности влияния внешней среды (температура, осадки, солнечная радиация, радиоактивность и т.п.) на исследуемый объект и измерительную систему.

Качество исследования существенно определяется тем, насколько исследователю удается устранить или компенсировать воздействие вышеуказанных источников погрешностей на результат измерения.

Назовeм физический (биологический, химический и т.п.) параметр свойства изучаемого объекта откликом. Абсолютной погрешностью измерения называется разность между результатом измерения yu и действительным значением Аu измеряемой величины. Относительной погрешностью измерения называется отношение (обычно выражаемое в процентах) абсолютной ошибки к результату измерения.

Погрешность результата yu измерения отклика можно условно разделить на две части: систематическую h{yu} и случайную е{уu}. Правда, грань между систематическими и случайными погрешностями, вообще говоря, провести достаточно сложно, так как первые в соответствующих условиях также могут рассматриваться, как случайные величины.

Систематическими погрешностями h{yu} называются погрешности, величина которых во всех измерениях, проводящихся одним и тем же методом с помощью одних и тех же приборов, одинакова или изменяется по некоторому детерминированному закону в зависимости от источников Xu возникновения ошибок. Знание закона h{yu} = f{Xu} (в частном случае, h{yu} = const) позволяет устранить систематическую погрешность из результата уu измерения. В противном случае систематические погрешности приходится искусственно относить к разряду случайных погрешностей и компенсировать их с использованием рандомизации.

Случайными погрешностями е{уu} можно назвать такие погрешности, величина которых во всех измерениях, проводящихся одним и тем же методом и с помощью одних и тех же приборов, изменяется, причем вероятность появления погрешности е{уu}, не превышающей некоторую величину е{уа}, подчиняется закону распределения F{е} = P{е < еA}. Погрешность е{уu} отражает объективный закон действия случайности и связана, в частности, с действием неучтенных факторов измерения Хи. Обычно считается, что случайные погрешности независимых измерений подчиняются нормальному закону распределения.

Важнейшими характеристиками измерений являются их правильность, достоверность и точность. Правильность измерений определяется отсутствием систематической погрешности в конечном результате измерений и зависит от корректности методов и совершенства средств измерения. Достоверность (истинность, несомненность, степень доверия) результата измерения характеризуется случайной составляющей погрешности измерения: чем меньше оценка средней квадратической погрешности (СКП) единичного измерения, тем достовернее результат.

По результатам измерений вычисляется выборочная оценка sэ среднеквадратичного отклонения (СО) ошибки эксперимента, которую иногда называют СО ошибки воспроизводимости отклика (Айвазян и др., 1983; Цейтлин, 2007) или просто "ошибкой эксперимента". Перед вычислением оценки sэ необходимо исключить из ряда измерений у1, у2, ..., уu, ..., уп аномальные измерения (грубые погрешности, "промахи"), если они допущены. Поскольку даже опытному экспериментатору бывает трудно только на логическом уровне решить вопрос об аномальности того или иного результата, то рекомендуется (Цейтлин, 2007) использовать статистические критерии для проверки такой гипотезы.

Методы определения оценки sэ СО ошибки эксперимента зависят от схемы организации этого эксперимента. В качестве примера рассмотрим простейший эксперимент по определению значения у при трех разных значениях х (рис. 1). Введем общие понятия, определения и нумерацию:

Рис. 1. Схема организации эксперимента из N опытных точек (а), в каждой из которых (б) проводится: А - один опыт с одним измерением, Б - один опыт с m измерениями,

В - n опытов с одним измерением в каждом, Г - n опытов с m измерениями в каждом

В каждой и-й опытной точке могут быть осуществлены следующие экспериментальные действия (см. рис. 1 и табл. 1):

А) один опыт с одним измерением, в результате чего будет получена одна величина выхода уи, но не будут получены никакие характеристики рассеяния;

Б) один опыт с m измерениями, в результате чего будет получено m значений yuw со средним

yu/w = m-1S yuw и дисперсией s2u/w = (m - 1)-1S (yu/w - yuw)2,

характеризующей рассеяние в серии измерений (но никак не характеризующей воспроизводимость опытов);

В) серия из п дублирующих опытов ("повторностей" по С. Хелберту) с одним измерением в каждом, в результате чего будет получено п значений yuv со средним

yu/v = п-1S yuv и дисперсией s2u/v = (п - 1)-1S (yu/v - yuv)2,

характеризующей рассеяние в серии опытов, т.е. их воспроизводимость (при этом учитывается и погрешность измерения, однако выделить еe нельзя, поскольку m = 1);

Г) серия из п дублирующих опытов с m = const измерений в каждом, в результате чего будет получено mп значений yuvw;

Д) серия из п дублирующих опытов с неравномерным числом измерений mv.

Таблица 1

Статистические характеристики u-й опытной точки (по: Вознесенский, 1981)

Код

Результат

Расчет-ная

вели-чина

Дисперсия

измере-ния

опыта

серии опытов

измере-ния в опыте

измере-ния серии опытов

воспроизводи-мость в серии опытов

среднего в серии опытов

по измерениям

по вос-произво-димости

А

уи

уи

нет

уи

нет

нет

нет

нет

нет

Б

yuw

yu/w

нет

yu/w

s2u/w

f= m - 1

нет

нет

s2u/w{y}

f= m - 1

нет

В

yuv

yuv

yu/v

yu/v

нет

нет

s2u/v

f= n - 1

нет

s2u/v{y}

f= n - 1

Г

yuvw

yuv/w

yu/vw

yu/vw

s2uv/w

f= m - 1

s2u/vw

f=n(m-1)

s2u/v

f= n - 1

s2u/vw{y}

f=n(m-1)

s2u/v{y}

f= n - 1

В каждом v-м опыте серии Г можно найти значения среднего yuv/w = m-1S yuvw

и дисперсии s2uv/w = (m - 1)-1S (yuv/w - yuvw)2, характеризующей рассеяние измерений в этом опыте.

По всей и-й серии измерений можно найти значения среднего yu/vw = п-1S yuv/w= (mп)-1S S yuvw и дисперсии s2u/v = (п - 1)-1S (yu/vw - yuv/w)2, характеризующей воспроизводимость опытов. Кроме того, в и-й серии опытов можно оценить среднюю дисперсию измерений

s2u/vw = п-1S s2uv/w,

после того как по G-критерию Кохрена будет проверена гипотеза об однородности ряда усредняемых дисперсий. Напомним, что статистика давно известного G-критерия Кохрена вычисляется как отношение максимальной оценки дисперсии к сумме всех оценок и поэтому позволяет выделить лишь выброс дисперсий в сторону максимума. Для проверки гипотезы о равенстве всех усредняемых дисперсий можно одновременно использовать недавно предложенный критерий Фишера-Бонферрони (Цейтлин, 2007), статистика которого вычисляется как отношение максимальной оценки дисперсии к минимальной.

В результате реализации серии Д будут получены те же величины, что и по схеме Г, но проверка однородности дисперсий должна быть проведена как по традиционно используемому В-критерию Бартлетта при существенно различных (более чем на 4) числах степеней свободы сравниваемых дисперсий, так и одновременно с помощью критерия Фишера-Бонферрони при любых несущественно различных числах степеней свободы сравниваемых дисперсий.

По схемам Б, В и Г можно определить дисперсию погрешности по измерениям среднего результата в серии опытов -

s2u/w{y} = s2u/w/m (схема Б); s2u/vw{y} = s2u/vw/(mп) (схема Г)

и дисперсию в серии опытов ошибки воспроизводимости -

s2u/v{у} = s2u/v{y}/п.

Таким образом, из анализа схем А, Б, В и Г ясно, что оценка sэ СО ошибки воспроизводимости эксперимента может быть двух видов: погрешность эксперимента по измерениям, или СКП sэw, и СО ошибки эксперимента по воспроизводимости sэv. В.А. Вознесенский (1981) предлагает в случае применения схемы Г проверять гипотезу о равенстве дисперсий погрешности эксперимента по измерениям и ошибки по воспроизводимости Н0s 2эw = s 2эv с помощью F-критерия Фишера. Если эта гипотеза не отклоняется, то можно рассчитывать общую дисперсию s2эо. Однако использование F-критерия в этом случае не вполне корректно, потому что сравниваемые дисперсии не независимы. Кроме того, желательно, чтобы дисперсия погрешности эксперимента по измерениям была бы ничтожно малой по сравнению с дисперсией ошибки эксперимента по воспроизводимости. Критерий для проверки этой гипотезы будет описан ниже.

Рассмотрим метрологические характеристики эксперимента из N опытных точек на примере, когда N = 3, комбинируя вышеизложенные схемы А, Б, В и Г так, чтобы охватить наиболее часто встречающиеся схемы организации эксперимента. При этом не будем рассматривать редко встречающееся неравномерное дублирование (m ¹ const и n ¹ const), за исключением того случая, когда “неравномерность” сосредоточена в одной опытной точке (без потери общности это будет точка и = 1 - левая на рис. 1).

I. Эксперимент без дублирующих опытов (повторностей). Дисперсию ошибки воспроизводимости опытов определить нельзя. Погрешность измерений определяется в зависимости от комбинации схем А и Б:

1) схема “А-А-А” (во всех точках одно измерение) не позволяет определить sэw;

2) схема “Б-Б-Б” (во всех точках - по m измерений) позволяет определить среднюю по всем N точкам дисперсию по измерениям

s2w = N-1S s2u/w

(здесь и в дальнейшем предполагается усреднение дисперсий только в случае, если не отклонена гипотеза об их однородности);

3) схема “Б-А-А” (серия измерений во второй точке) позволяет определить дисперсию S21/w, которая распространяется на весь эксперимент.

II. Эксперимент с сериями опытов в каждой точке. Средняя дисперсия ошибки воспроизводимости по всем опытам

s2v = N-1S s2u/v с числом степеней свободы f = N(n - 1).

Дисперсия погрешности измерений s2эw при схеме “В-В-В” не определяется, а при схеме “Г-Г-Г” определяется как

s2w = N-1S s2u/vw;

при схеме “Г-В-В” определяется как S21/vw и распространяется на весь эксперимент.

III. Эксперимент с дублированием опытов в одной точке. Дисперсия воспроизводимости по первой опытной точке S21/v с числом степеней свободы f = n - 1 распространяется на весь эксперимент. Дисперсия погрешности измерений s2эw при схеме “В-А-А” не определяется; при схеме “Г-Б-Б” определяется средняя дисперсия

s2w = (N + n - l)-1(S s2v/w + S s2u/w);

при схеме “Г-А-А” по первой опытной точке определяется дисперсия S21/vw, которая распространяется на весь эксперимент.

Сводка метрологических характеристик эксперимента дана в табл. 2, там же указано общее число опытов и общее число измерений в зависимости от схемы его организации. Эти характеристики оказывают существенное влияние на регрессионный анализ полиномиальных статистических моделей. Примеры их определений и применения даны в книге В.А. Вознесенского (1981).

Таблица 2

Метрологические характеристики эксперимента из N = 3 опытных точек (Вознесенский, 1981)

I. Без дублирования опытов (пи = 1)

II. Во всех N точках серии из п опытов

III. Дублирование опытов в одной точке (и = 1)

Номер схемы эксперимента

I/1

I/2

I/3

II/1

II/2

II/3

III/1

III/2

III/3

Код эксперимента

А-А-А

Б-Б-Б

Б-А-А

В-В-В

Г-Г-Г

Г-В-В

В-А-А

Г-Б-Б

Г-А-А

Дисперсия по измерениям s2эw

нет

S2*w;

f =

N(m-1)

S21/w;

f =

(m-1)

нет

S2*w;

f =

Nn(m-1)

S21/vw;

f =

n (m-1)

нет

S2*w;

f = (m-1) ´ (N+n-1)

S21/vw;

f =n (m-1)

Дисперсия по вос-производимости s2эv

нет

S2v;

f = N(n - l)

S21/v;

f = n - 1

Число опытов

N

Nn

N + n - 1

Число измерений

N

mN

N+m-1

Nn

mNn

n(N+m-1)

N+n-1

m(N+n-1)

N+nm-1

* Усреднение - после проверки однородности соответствующих дисперсий.

В заключение следует отметить, что решение метрологических проблем эксперимента в экологии с позиций статистического моделирования пока нельзя признать полным и законченным, свидетельством чему является дискуссия, приведенная в гл. 1.

Проверка статистических гипотез и связанные с этим проблемы

- Алe! Это телефон Николая Ивановича Степашина?

- Нет, это телефон Наума Гейнаховича Ланцберга.

- Я верно набрал номер 11-12-13?

- Нет, мой номер 11-12-14!

- Странно: ошибка в шестом знаке, а такая большая разница! J

Формулирование и проверка статистических гипотез

Основными целями статистического анализа являются: (i) выяснение свойств рассматриваемой генеральной совокупности по результатам измерения свойств части этой совокупности и (ii) прогнозирование характеристик исследуемого объекта. Поставленные цели достигаются путeм формирования случайной выборки (подмножества) данных конечного объeма N из генеральной совокупности, исследования и описания свойств выборки, а также обобщения этих результатов путeм их переноса на всю генеральную совокупность.

Выборочные исследования можно условно разделить на два вида: описательные и аналитические. Цель описательного обследования состоит в том, чтобы просто получить сведения о способах жизнедеятельности некоторых больших экосистем: например, о Невской губе, оз. Байкал или Азовском море. На основе этих данных строятся математические модели разной степени сложности. При аналитическом обследовании сравниваются различные группы (выборки) независимых наблюдений для того, чтобы установить, существуют ли между ними такие различия, которые позволили бы нам построить или проверить гипотезы о природе сил и возмущений, действующих в данной совокупности. Обобщение результатов статистической обработки данных на генеральную совокупность называется статистическим выводом. При этом необходимо отметить, что процедуры проверки предметно-научных и математических гипотез далеко не тождественны, как не являются тождественными понятия статистического и экологического вывода.

Статистическая проверка гипотез является одним из важнейших разделов математической статистики. Гипотезу H0, выдвинутую для проверки ее согласия с выборочными данными, называют нулевой гипотезой. Как правило, с этой гипотезой в экологии связывают предположение об отсутствии влияния фактора, равенстве математических ожиданий сравниваемых выборок и т.д. Вместе с гипотезой H0 выдвигается альтернативная или конкурирующая гипотеза, например, правосторонняя H1 (рис. 2), с которой связывают обычно наличие эффекта воздействия.

Пусть законы распределения случайных величин Х и Y есть F(x) и G(y) при всех х соответственно. Величина Х представляет контроль, а величина Y отражает свойства объекта под влиянием изучаемого фактора. Однородными считаются сравниваемые выборки, полученные из одной и той же генеральной совокупности, т.е., когда справедлива нулевая гипотеза

H'0 : F(x) = G(y) при всех х.

Если гипотеза H'0 не отклонена, то выборки можно объединить в одну, если нет - то нельзя. В некоторых случаях эффект воздействия фактора может выражаться в изменении характера распределения, но чаще всего проверяют не совпадение функций F(x) и G(y), а совпадение характеристик положения случайных величин Х и Y (математических ожиданий или медиан) или характеристик их разброса (дисперсий, размахов, средних абсолютных отклонений или коэффициентов вариации). Например, однородность математических ожиданий означает, что справедлива гипотеза

H0 : M(X) = M(Y) против двусторонней альтернативы H1 : M(X) ¹ M(Y),

где M(Х) и M(Y) - математические ожидания случайных величин Х и Y, результаты наблюдений над которыми составляют первую и вторую выборки соответственно.

Проверка гипотез осуществляется с помощью статистического критерия К - случайной величины, закон распределения которой известен в случае, если справедлива проверяемая нулевая гипотеза. Пусть при справедливости гипотезы H0 статистический критерий K имеет плотность распределения p0(x), а при справедливости альтернативной гипотезы H1 – плотность распределения p1(x) (см. рис. 2).

Рис. 2. Плотности распределения вероятностей статистического критерия

при нулевой p0(x) и альтернативной p1(x) гипотезах

Для некоторого априори заданного критического уровня значимости αк находится критическое значение Kкр критерия и выделяется правосторонняя критическая область. На рис. 2 это заштрихованная фигура, лежащая справа от точки Kкр и образованная графиком функции p0(x) и полубесконечной частью оси абсцисс (отметим, что она имеет площадь, равную αк). Если значение Kв, определенное по выборочным данным, оказывается меньше, чем Kкр, то гипотеза H0 принимается, а в противном случае - отвергается. Однако справедливая гипотеза H0 может отклониться ошибочно - просто случайно произошло событие, которое имеет очень малую вероятность α, т.е. р(K > Kкр) = α. Ξшибочное отвержение правильной гипотезы называется ошибкой первого рода, а вероятность ее совершения - уровнем значимости α.

Одна из проблем при рассмотрении двух гипотез - об отсутствии воздействия и о его наличии - состоит в том, какую из них принять в качестве нулевой гипотезы. Прежде чем сформулировать гипотезы H0 или H1, необходимо проанализировать, какие ошибки в принятии решений приведут к более тяжeлым последствиям. Если воздействие критично для "здоровья" экосистемы, то эколог должен стремиться контролировать вероятность тяжeлых последствий и для этого принять в качестве проверяемой нулевой H0 гипотезы предположение об отсутствии (а не о наличии!) негативных изменений. Например, при определении предельно допустимых воздействий эколога интересуют не средние, а наибольшие значения нагрузок. Для них принято строить односторонние толерантные пределы (Большев, Смирнов, 1983, с. 45), которые будут с заданной высокой надежностью (например, 99.9%) выявлять риск неблагоприятного воздействия.

Предположим теперь, что нулевая гипотеза H0 отклонена, и справедлива на самом деле конкурирующая гипотеза H1. Тогда вероятность попадания критерия в область принятия гипотезы H0 есть некоторое число β, равное площади фигуры, заштрихованной на рис. 2 и лежащей слева от точки Kкр. Очевидно, что β – это вероятность того, что будет принята неверная гипотеза H0, что соответствует ошибке второго рода. Число c = (1 - β), πавное вероятности того, что не принята нулевая гипотеза H0, когда она неверна, называется мощностью критерия и отражает площадь фигуры, образованной графиком функции p1(x) и лежащей справа от точки Kкр: . Поскольку вид функции p1(x) не определен, ее восстановление по эмпирическим данным представляет собой нетривиальную математическую проблему.

В практическом смысле статистическая мощность (чувствительность) критерия c - это вероятность того, что при проверке какой-либо статистической гипотезы (например, о равенстве средних, дисперсий, коэффициентов корреляции, долей и т.д.) опыт с данными объемами выборок выявит как статистически значимое реально существующее различие между выборками. Если β принимается равной 0.2 (20%), то в этом случае c = (1 - 0.2) = 0.8 (80%). Чем больше статистическая мощность критерия, тем больше уверенность в том, что имеющиеся в реальности различия между выборками выявлены в ходе исследования, тем больше вероятность того, что мы правильно отследим "плохую" ситуацию. Например, это может быть вероятность того, что мы примем обоснованные меры к ограничению промышленно-рекреационной деятельности, если на контролируемой территории отклонение биоиндикационных показателей слишком велико.

Определение необходимых объемов выборок при планировании исследований

Случайная выборка должна быть репрезентативной (представительной). Критериями репрезентативности выборки являются: еe объeм N и эффективность рандомизации (процедуры случайного отбора) еe элементов. Чем больше объeм N и реальнее рандомизация, тем представительнее выборка. Основной смысл априорной оценки требуемого объема выборок N заключается в том, чтобы при минимальных материальных и трудовых затратах обеспечить в результате исследования объективность выявления реальных различий между выборками, т.е. необходимую чувствительность эксперимента. Этот вопрос обсуждался нами в разд. 2.3.

Статистическая мощность исследования {statistical power} или чувствительность диагностического теста – это вероятность того, что в эксперименте будет найдено статистически достоверное различие, когда это различие действительно существует. Чувствительность исследования тесно связана с мощностью критерия c = (1 – β), ς.е., выражаясь точнее, она является практическим олицетворением этого статистического понятия. В свою очередь, мощность критерия зависит от трех составляющих:

Наибольшее влияние на чувствительность теста оказывает объем выборки: при больших выборках даже небольшие отличия оказываются статистически значимыми, и наоборот. Существует, по крайней мере, две причины такого влияния. Во-первых, с ростом N увеличивается количество степеней свободы, что, в свою очередь, уменьшает критическое значение. Во-вторых, значение критерия Стьюдента растет с ростом объема выборок N и стандартизованного различия j = d /s (это справедливо и для многих других критериев). Зная все эти закономерности, можно заранее определить численность выборок, необходимую для выявления эффекта.

В общем случае для оценки мощности статистического критерия c необходимо иметь априорные сведения о законе распределения статистики при справедливой альтернативной гипотезе H1. Если же этот закон не известен, то может быть построена функция мощности статистического критерия (Идье и др., 1976; Розенберг, 1976; Усманов, 1984) или использована номограмма на рис. 3 (Реброва, 2002) для нахождения необходимого общего объема двух выборок.

Входными параметрами для номограммы являются следующие величины:

Рис.3. Номограмма для определения объемов выборок при проведении исследования

Минимальное стандартизованное различие между выборками вычисляется разными способами для данных разных типов. Для количественных данных минимальное стандартизованное различие определяется как отношение d/s, где d - абсолютное значение минимального среднего различия между группами, имеющее экологическую значимость, s - известный априори из ранее проводившихся исследований средний квадрат отклонений (СКО) изучаемого показателя у данной категории экспериментальных единиц. Если априорная оценка СКО невозможна, то ее значение рассчитывают в ходе начального этапа исследования по уже полученным наблюдениям. Существуют и другие способы, но они более сложны, и при необходимости их использовать рекомендуется обращаться к специальной литературе (Айвазян и др., 1983). Для динамических исследований (исследований одних и тех же объектов в разные моменты времени) расчет стандартизованного различия производится по формуле 2d/s. В данном случае s - это СКО средней разности признака.

Для качественных (бинарных) данных (при исследовании альтернативных исходов эксперимента, например "наличие или отсутствие изменения") стандартизованное различие определяется как , где Р1 и Р2 - относительные частоты желательных исходов, соответственно, в 1-й и 2-й группах.

Полученная по номограмме величина объема выборки должна быть разделена на 2, если планируется изучать две равные по объему группы. Если соотношение численности групп планируется равным k = n1/n2, то объемы выборок будут определяться по формулам n1= No/(1 + k); n2 = No - n1 ; No = N (1 + k)2/4k, где N - найденный по номограмме общий объем выборок. Бесплатные программы для вычисления статистической мощности критерия можно получить, например, в Интернете: http://statpages.org/javasta2.html .

Гипотеза о ничтожной погрешности

Результаты наблюдений отклика Y на объектах экспериментальных исследований получаются всегда с некоторой случайной погрешностью, обусловленной несовершенством измерительной схемы постановки опыта. Наблюдаемые объекты подвергаются влиянию внешних несверхъестественных и стохастических факторов, сопровождающих изучаемый процесс (эффекты "ограждения" или "аквариума", локальные источники физико-химического воздействия, флуктуации параметров погоды и другие проявления пространственно-временных неоднородностей, шумов и дрейфов), которые вызывают не устраняемый разброс значений отклика. Параметры распределения значений наблюдаемой случайной величины Y могут быть также искажены за счет случайной погрешности измерительной аппаратуры или методик отбора проб.

Повышение точности экспериментальных наблюдений связано с решением технических, экономических и статистических проблем. В частности, возникает следующая статистическая задача определения ничтожной погрешности прямых измерений: какой должна быть случайная погрешность измерительного метода, чтобы параметры естественного разброса случайной величины не были искажены погрешностью этого метода.

Пусть некий отклик Y является случайной величиной, распределeнной по нормальному закону с параметрами - центром n и дисперсией воспроизводимости отклика [в краткой записи: Y ~ ], причeм выборочная дисперсия с f степенями свободы является оценкой . Пусть элементы выборки ( - множество значений) измерены со случайной погрешностью измерения ε ~ . Тогда оценка дисперсии погрешности измерения имеет степеней свободы.

Необходимо проверить гипотезу о том, что дисперсия погрешности измерения ничтожно (пренебрежимо) мала по сравнению с дисперсией измеренной случайной величины Y.

Очевидно, что пренебречь дисперсией погрешности измерения можно в том случае, если она не превышает среднеквадратичного отклонения (СО) выборочной дисперсии , являющейся оценкой генеральной дисперсии измеряемой случайной величины Y. Это позволяет записать одну гипотезу

НТ: против другой гипотезы НЭ: .

Если, например, возникает необходимость добиться высокой точности измерений, не считаясь с затратами средств на снижение дисперсии погрешности , можно, задав критический уровень значимости α (например, α = 0.05), предпочесть гипотезу НТ и считать, что H1 = НТ, а H0 = HЭ .

Оценка CO дисперсии есть = (Смирнов, Дунин-Барковский, 1965). Поэтому для проверки нулевых гипотез Н0 можно воспользоваться статистиками Фишера по формулам:

= / = ; =/ = /(2/f)0,5.

Затем определяют оценку уровня значимостиТ нулевой гипотезы H0 = HЭ одним из возможных методов: на компьютере с помощью "статистического калькулятора", или по простым формулам, или по номограммам, или по таблицам (Цейтлин, 2007, с. 89, 92 и 93 соответственно). Нулевую гипотезу отклоняют, если окажется, что Т < α, или не отклоняют в противном случае.

Следует отметить, что, если у организаторов эксперимента возникает стремление к экономии средств, выделяемых на снижение погрешности опыта, следует предпочесть гипотезу HЭ и, задав другой критический уровень значимости α, считать, что H1 = HЭ, а HНТ. Остальные процедуры проверки нулевой гипотезы остаются неизменными.

В реальной обстановке путем прямого измерения значений Yi Î Im Y "чистую" дисперсию случайной величины Y, свободную от влияния дисперсии погрешности измерения Y, оценить невозможно. Строго говоря, дисперсия отклика Y характеризует разброс его значений при параллельных опытах в случае, когда дисперсияпогрешности измерения Y равна нулю. В реальной обстановке можно оценить лишь сумму этих дисперсий .

В.А. Вознесенский (1981) предлагает способы оценки дисперсии погрешности измерения (названной автором "дисперсией ошибки эксперимента по измерению") и "дисперсии ошибки эксперимента по воспроизводимости" , оценка которой имеет y степеней свободы. В эксперименте необходимо, чтобы вклад дисперсии погрешности измерения отклика Y в суммарную дисперсию ("воспроизводимости") случайной величины Y был ничтожно малым. Это требование можно сформулировать в виде гипотезы НТ против НЭ. Оценку дисперсии можно вычислить по формуле

,

а число еe степеней свободы найти по формуле Вэлча

.

Примеры расчетов приведены в монографии Н.А. Цейтлина (2007).

Проблема множественных сравнений

Такие традиционные критерии значимости, как t- или U-критерий, используются для проверки нулевой гипотезы относительно разности средних двух совокупностей (= 2). Однако на практике они широко и неправильно используются для оценки различий при k > 2 методом попарного сравнения.

Пусть, например, мы, в полном соответствии с рекомендациями С. Хелберта (см. гл. 1 настоящей книги), имеем три подопытных повторности и три повторности контроля. С помощью критерия Стьюдента проведем 9 парных сравнений между каждой экспериментальной единицей при наличии воздействия и каждой единицей контроля. Получив достаточно высокое значение критерия Стьюдента, например, в 6 случаях из 9, сообщаем, что "p < 0.05". Но это далеко не так: вероятность ошибиться хотя бы в одном сравнении значительно превышает 5% и составляет (для независимых испытаний) p = 1 - (1 - 0.05)k, где k – число сравнений. И когда в нашем примере исследователь, выявив таким образом эффект воздействия, будет полагать, что ошибется в 5% случаев, на самом деле эта вероятность будет равна 37%.

Тут мы сталкиваемся с эффектом множественных сравнений, когда анализируя данные, не содержащие закономерностей, можно получить ложные заключения, которые основываются на использовании, казалось бы, корректных статистических выводов. Проблема множественных сравнений подробно рассмотрена при проверке гипотезы равенства математических ожиданий в группах объектов H0: m 1 = m 2 = … = m k, против альтернативной гипотезы H1, что не все средние совпадают. К множественным сравнениям можно также отнести использование контрастов, с помощью которых проверяют, не равна ли нулю заданная линейная комбинация математических ожиданий, попарное сравнение средних в группах, а также целый ряд других случаев.

С. Гланц (1999) ставит вопрос шире “Достаточно ли рандомизации?” и приводит такие примеры различного "обличия" эффекта множественных сравнений:

  1. Проверкой нового метода лечения занимаются несколько исследователей. Получив положительный результат, исследователь его опубликует. А получив отрицательный? Вероятно, воздержится от публикации и предпримет повторную проверку. В конце концов в одной из многих проверок будет обнаружен желанный эффект.
  2. Проведены широкомасштабные испытания метода лечения. Среди наблюдавшихся больных в целом не было выявлено статистически значимых различий. Тогда данные стали подвергаться различным группировкам (с целью выяснения наиболее информативных признаков, связанных с эффектом воздействия). Понятно, что при значительном числе возможных группировок не составит труда выделить группы больных, в отношении которых метод лечения окажется эффективен.
  3. Сходная картина наблюдается, когда в данных, полученных для анализа одних факторов, обнаруживается связь между другими. Возможно, что это реально существующая связь, но, возможно, и эффект множественных сравнений, когда, попарно сравнивая все со всем, исследователь непременно найдет какую-нибудь зависимость.

Интерпретация всех подобных находок требует крайней осторожности, и эту "плодотворную деятельность" могло бы омрачить, например, применение поправки К. Бонферрони.

Рассмотрим пример эксперимента, в котором определяются средние значения k совокупностей на основании n независимых наблюдений из каждой совокупности. При сравнении двух совокупностей i и j можно применять обычную t-статистику для проверки утверждения "(m i - m j) содержится в интервале". Тогда, при m независимых утверждений, каждое с доверительным уровнем (1 - α), уровень ошибки, устанавливаемый в эксперименте (например αE) есть вероятность того, что не все эти утверждения истинны (т.е. ложно хотя бы одно из них):

αE = 1 – P (все суждения истинны) = = 1 – (1- α)m.

Однако утверждения, составляющие заключения об эксперименте, не являются независимыми. Тогда верхний предел αE определяется неравенством Бонферрони

(при достаточно малых значениях этой суммы, не более 0,2).

Следовательно, если удельная ошибка одного сравнения составляет α'/m, то общий уровень ошибки αE, устанавливаемый в эксперименте, не превысит α'.

Предположим, что мы хотим выполнить все возможные пары сравнений m = k× (k - 1)/2. Тогда следующие m утверждений будут иметь совместный доверительный уровень, по крайней мере (1 - α'): .

Подчеркнем, что подход К. Бонферрони можно применять и к утверждениям, не основанным на t-статистике, а, например, использовать непараметрические ранговые критерии на каждое сравнение.

Метод Бонферрони применяется к любой ситуации, где имеется более одного утверждения. Для частных случаев разработаны специальные методы множественных сравнений. В эксперименте с k совокупностями (т.е. один фактор на k уровнях) могут быть различные цели:

  1. Сравнение средних m i (i = 1, 2, …, k) экспериментальных совокупностей со средней m 0 стандартной или контрольной совокупности. Здесь можно отметить (Клейнен, 1978) параметрический метод К. Даннетта (Dannet) и непараметрический критерий суммы рангов Р. Стила (Steel).
  2. Выполнение всех парных сравнений: m i - m i’ (i, i’ = 1, 2, …, k, i<i’), например, методом Дж. Тьюки (Tukey), основанном на стьюдентизированном размахе.
  3. Сравнение всех контрастов между k средними. Под контрастом понимается линейная функция k средних, например, , где известные коэффициенты ci удовлетворяют условиям
и ci ³ 0. Здесь наиболее известны параметрический метод Г.Шеффе (Scheffe) и метод ранжирования О.Данна (Dann).

Общее функциональное описание параметров управляемой экосистемы

Существует поразительная возможность овладеть предметом математически, так и не поняв существа дела.

А. Эйнштейн

Функциональное описание любой сложной системы задается набором параметров морфологического описания Х (включая воздействия извне), числовым функционалом Y, оценивающим качество системы, и некоторым математическим оператором детерминированного или стохастического преобразования Y , определяющим зависимость между состоянием входа Х и состоянием выхода Y:

Y = Y (X) .

Из общей теории моделирования экологических систем (Шитиков и др., 2004) принято выделять пять групп показателей с точки зрения способа их экспериментального получения и использования в ходе обработки:

  1. управляющие параметры – U = (u1, u2, …, ur),с помощью которых можно оказывать прямое воздействие в соответствии с заданными требованиями, что позволяет управлять системой (к ним можно отнести и регулируемую интенсивность изучаемых физико-химических факторов в эксперименте на микрокосмах и ряд целенаправленных мероприятий по охране и восстановлению природной среды для макроэкосистем);
  2. неуправляемые (режимные) параметры – V = (v1, v2, …, vk),значения которых могут быть измерены, но возможность воздействия на них отсутствует (применительно к моделям экосистем, к таковым можно отнести солнечную активность, глобальные климатические явления, неуправляемую хозяйственную деятельность человека и т.д.);
  3. неконтролируемые возмущающие воздействия – Z = (z1, z2, …, zl),значения которых случайным образом меняются с течением времени и которые недоступны для измерения, создавая дисперсию неучтенных условий или стохастический шум x ("несверхъестественные и сверхъестественные вмешательства", по С. Хелберту);
  4. параметры состояния X = (x1, x2, …, xn) – множество внутренних параметров, мгновенные значения которых определяются текущим режимом функционирования экосистемы и, в конечном итоге, являются результатом суммарного воздействия входных, управляющих и возмущающих факторов, а также взаимного влияния других внутрисистемных компонентов;
  5. выходные (целевые или результирующие) параметры Y = (y1, y2, …, ym)некоторые специально выделенные параметры состояния (либо некоторые функции от них), которые являются предметом изучения (моделирования, оптимизации) и которые используются в качестве критерия "благополучия" всей экосистемы.

По отношению к экосистеме входные и управляющие параметры являются внешними, что подчеркивает независимость их значений от процессов внутри нее. Возмущающие факторы могут иметь как внешнюю, так и внутреннюю природу.

По традиции, восходящей к Н. Винеру (1958), объект экологических исследований можно рассматривать в виде "черного ящика" (рис. 4). Точнее было бы называть изучаемую экосистему "серым ящиком", поскольку всегда имеются как некоторая априорная информация, позволяющая сформулировать гипотезы относительно структуры и параметров статистической модели объекта, так и существенная неопределенность поведения изучаемой системы, раскрытие которой является предметом проводимых исследований.

U1

.….

Ur

V1

.….

Vk

Z1

.….

Zl

X1

.….

Xn

 

x

   

ò

ò ò

ò

ò

ò ò

ò

ò

ò ò

ò

ò

ò ò

ò

 

ò

   

Объект экологических исследований

ð

Y

ð

Y

Рис. 4. Схематическое изображение объекта экологических исследований:

U i - управляемые; V i - неуправляемые; Zi - неконтролируемые внешние факторы; x - стохастический фактор (шум); Xi - параметры состояния экосистемы;

Y - отклик или зависимая переменная.

Предполагая, что параметры экосистемы связаны некоторыми функциональными отношениями, которые в синтезируемой модели выражаются набором уравнений Y различной математической природы (алгебраические, логические, дифференциальные, конечно-разностные, матричные, статистические и проч.), общее выражение можно записать как: Y = Y (X, U, V) + x .

Любая экосистема представляет собой динамический объект, поэтому уравнение статической модели должно быть дополнено множеством моментов времени T, для которых измерены мгновенные значения переменных. Поскольку экосистемы относятся также к объектам с распределенными параметрами, компоненты которых могут меняться не только во времени, но и в пространстве S, то общее уравнение модели экосистемы приобретает вид: Y = Y (X, U, V, T, S) + x .

Одной из самых генеральных идей многомерного анализа данных является принцип эффекта существенной многомерности, сущность которого в том, что выводы, получаемые в результате наблюдений над множеством изучаемых объектов, “должны опираться одновременно на совокупность взаимосвязанных свойств этих объектов с обязательным учетом структуры и характера их связей” (Айвазян и др., 1989). Природа эффекта существенной многомерности поясняется этими авторами на таком примере: попытка различить два типа потребительского поведения семей, основанная на последовательном применении критерия однородности Стьюдента сначала по одному признаку (расходы на питание), потом по другому (расходы на промышленные товары и услуги) не дала результата, в то время как многомерный аналог этого критерия, основанный на расстоянии Махалонобиса и учитывающий одновременно все признаки, дал правильный результат.

Учет по возможности максимального количества факторов X и V, влияющих в ходе эксперимента на результат оценки отклика, является также важным условием достоверности получаемых выводов. За этим, собственно говоря, и скрыт субъективный фактор, называемый обычно искусством экспериментатора.

Для дальнейшего анализа наблюдаемых данных важно различать группы шкал, предназначенных для измерения признаков: количественные шкалы (интервалов, отношений и aбcoлютная); порядковые шкалы (полного или частичного порядка рангов, баллов) и номинальные шкалы наименований.

Порядковые шкалы упорядочивают объекты в определенной последовательности, иными словами, ранжируют их, однако без четкой единицы измерения. Например, известно, что А "больше" В, а В "больше" С и т.д. Здесь "больше" можно интерпретировать как более сильное развитие изучаемого признака, т.е. свойства некоторой интенсивности. Примерами порядковых шкал также являются всевозможные шкалы оценок качества вод, растительности, бонитета, типов грунтов и др. Хотя порядковые шкалы не дают возможности установить точные количественные соотношения между элементами, числовые оценки по этим шкалам можно использовать для математического моделирования и даже для поиска оптимума по таким моделям. Особенно успешно могут решаться задачи, если шкалы (и комментарий к ним) будут создаваться высококвалифицированными экспертами по научно обоснованным методикам с привлечением современного математического аппарата, в частности, методов непараметрической статистики. По нашему мнению, это уменьшит отрицательные последствия использованиятаких шкал, выраженные в экологии в появлении многочисленных, не всегда продуманных индексов, и позволит получить не только разумные оценки среднего, но и других числовых характеристик.

Количественные или метрические шкалы наиболее полно соответствуют процессу измерения, так как содержат ссылку на единицу измерения. Их применение в математическом анализе не нуждается в пояснениях.

Особенностью "активного" (или управляемого) эксперимента является существование множества факторов U, которым в исходном состоянии устанавливаются некоторые конкретные значения, поддерживаемые на постоянном уровне в течение всего опыта. Планировать эксперимент полезно в том случае, если эти факторы являются управляемыми в пределах некоторой заданной точности, устраивающей исследователя. Если факторы измеряются с большой ошибкой или особенность объекта исследования такова, что значения факторов трудно поддерживать на выбранном уровне (уровень фактора "плывет"), то при статистической обработке данных экспериментатору следует обратиться, например, к конфлюэнтному анализу (Клепиков, Соколов, 1964).

Управляемые факторы должны отражать непосредственное воздействие на объект, т.е. факторы должны быть однозначными. Трудно управлять фактором, который является функцией других факторов. Но в планах эксперимента могут участвовать сложные факторы (соотношения между компонентами, их логарифмы и т.п.), необходимость введения которых возникает при желании представить динамические особенности объекта в статической форме.

При планировании эксперимента обычно одновременно изменяется несколько факторов U. Поэтому очень важно сформулировать требования, которые предъявляются к совокупности факторов. Прежде всего, выдвигается требование совместимости, означающее, что все комбинации уровней факторов осуществимы и безопасны. Важна также независимость факторов, т.е. возможность установления фактора на любом уровне вне зависимости от уровней других факторов. Это условие выполнимо, если отсутствует значимая корреляция между факторами.

Не включаемые в анализ режимные параметры V, неконтролируемые возмущающие воздействия Z и стохастический шум x обуславливают наличие в структуре полученных экспериментальных данных различных неоднородностей и дрейфов, что является типичным явлением для большинства реальных экспериментов (Маркова, Лисенков, 1973).

Источники неоднородностей дискретного типа. В экологических исследованиях источниками неоднородностей дискретного типа чаще всего являются различия в типах или составе изучаемых биологических сообществ, экспериментальных или биотопных условиях, применяемых материалах, способах взятия проб, идентичности работы исполнителей и т.п. Так весьма часто экспериментатор не в состоянии провести всю серию экспериментов на полностью однородных группах подопытных животных. Иногда приходится сравнивать результаты наблюдений, проведенных в различных природно-климатических условиях, на разных водоемах, с сезонным сдвигом или при изменении режимов дня и т.д. Например, в сельскохозяйственных исследованиях источники неоднородностей - это различия в плодородности участков земли, в удобрениях, сортах семян, способах ирригации и многое другое. Возможные различия в процедурно-аппаратурном оформлении опыта также рассматриваются как источники неоднородностей. Несмотря на то, что лаборанты работают по одной и той же методике, результаты обработки проб могут отличаться друг от друга и сильно увеличивать ошибку эксперимента.

Подобные дискретные источники неоднородностей имеют качественную природу, и возможные уровни этих факторов представляются в порядковой шкале или шкале наименований. Как правило, источники неоднородностей, аналогичные перечисленным выше, не являются основными факторами, влияние которых интересует исследователя. Это - те факторы, которые увеличивают ошибку эксперимента, создают шумовое поле и дискретный пространственно-временной дрейф. Влияние их обычно исключают, а не оценивают, т.е. задача планирования эксперимента - свести к минимуму влияние дискретных факторов неоднородностей, получить неискаженную оценку ошибки и неискаженные оценки эффектов основных факторов. С другой стороны, если дискретные источники неоднородностей являются значительными, их следует измерять и включать в состав математических моделей. В противном случае отображение влияния управляемых факторов на отклики будет существенно искажено (Цейтлин, 2007).

Источники неоднородностей непрерывного типа. Эти источники вызывают непрерывные изменения свойств объектов - дрейф его выходного показателя во времени или по какой-либо другой координате. В сельском хозяйстве причинами дрейфа, выражающимися, например, в изменении урожая, могут быть изменения метеорологических условий. В биологических исследованиях, например при культивировании микроорганизмов, дрейф выходного показателя может быть обусловлен изменением во времени свойств используемых посевных культур, питательных сред и других факторов.

В обычной практике планирования эксперимента искажающее влияние таких "неуправляемых" факторов пытаются уменьшить, сделать их воздействие "случайным" путем рандомизации условий проведения эксперимента. При наличии априорной информации об источниках неоднородностей можно повысить точность статистического анализа результатов (уменьшить остаточную дисперсию), а также оценить влияние неуправляемых факторов, используя определенные планы, которые можно рассматривать как специальные приемы рандомизации, когда на нее накладываются ограничения.

Мы не считаем целесообразным предлагать какие-то рекомендации по формированию множества регистрируемых параметров состояния экосистемы X, поскольку этот список сильно зависит от предметной составляющей и от задач исследования. Важно лишь, чтобы эти показатели были измеряемыми и подобраны с адекватной полнотой. Однако исследователи при формировании оптимальных планов эксперимента сталкиваются с некоторыми практически важными аспектами другой весьма сложной проблемы - выбором параметра оптимизации Y. Он определяет реакцию объекта (отклик) на воздействия факторов и является, как правило, одним из ведущих параметров состояния, который определяет всю динамику поведения изучаемой экосистемы. Несмотря на то, что иногда удается с помощью частных приемов, таких, например, как функции желательности, сконструировать из нескольких показателей обобщенный параметр оптимизации, общее правило заключается в единственности целевого критерия Y, в то время как остальные переменные рассматриваются только как ограничения. Однако, как указывал С. Бир (1965): “Отличительной особенностью любой кибернетической системы можно считать полную бессмысленность рассмотрения ее иначе, как единого организма”, что делает выбор оптимизируемого параметра далеко не однозначным. Поэтому только напомним, что целевой отклик Y должен быть эффективным с точки зрения достижения цели, универсальным, количественным и выражаться одним числом.

Принципы построения полных схем многофакторных опытов

Закон Малека: Чем проще идея, тем сложнее еe излагают.

А. Блох Законы Мерфи

Исторически эпоха научного подхода в планировании эксперимента открывается основополагающей книгой Рональда Фишера “The Design of Experiments” (1971, изданной в 1935 г. и до сих пор не переведенной на русский язык), в которой предложены полные факторные эксперименты (ПФЭ) и способы обработки их результатов. Традиционные схемы полевого опыта до Р. Фишера основывались на идее прямых наблюдений – исследователь включал в схему все интересующие его варианты, которые ввиду существующей изменчивости результатов эксперимента приходилось многократно дублировать. Практикой была установлена необходимость четырех-пятикратной повторности наблюдений (= 45), в результате чего усредненные результаты оказывались случайными оценками с дисперсией.

В схемах опыта, предложенных Р. Фишером, уровни варьирования всех факторов в каждом опыте строго фиксированы и выражаются небольшими целыми числами. Для пересчета реальных уровней варьирования факторов, измеренных в разных по наименованию шкалах и размерностях, используется система кодирования.

Наиболее употребительна кодировка факторов, где последовательные уровни кодированных факторов выражаются целыми числами -2, -1, 0, 1, 2 и т. п. Пусть, например, изучается влияние внесения Хi удобрения на урожайность, причем нижний уровень фактора Х1 составляет 0 кг/га (внесение удобрения отсутствует), верхний уровень внесения - 90 кг/га, а средний - 45 кг/га. Тогда, например, можно использовать два способа кодирования. Если ввести нормированную переменную х= (Хi - 45)/45, то она будет принимать следующие условные значения: -1 – нижний уровень; 0– средний; 1 – верхний уровень. Такая кодировка чаще используется при построении моделей регрессионного анализа. Другая кодировка, применяемая при построении моделей дисперсионного анализа, основана на нормированной переменной х=  Хi/45 и использует следующие условные значения: 0 – нижний уровень; 1 – средний; 2 – верхний уровень. Целочисленные кодировки уровней факторов удобны для компактной записи количества вариантов (опытов) схемы в виде шифров х1х2х3х4. Например, при кодировке х= Хi/45 шифр 1102 означает, что первые два фактора зафиксированы на среднем уровне, третий - на нижнем, четвертый - на верхнем уровне. Абсолютный контроль (все факторы на нижнем уровне) в такой кодировке обозначается 0000.

Для составления схемы полного факторного эксперимента (ПФЭ) следует выписать все комбинации уровней всех факторов. Продемонстрируем методику составления этих схем на примерах.

1. ПФЭ типа 2k - так обозначаются схемы полного факторного эксперимента (ПФЭ) при двух уровнях варьирования факторов. Если количество факторов k = 2, то количество опытов в схеме равно 2k = 22 = 4.

Пусть мы имеем два фактора (в кодированных обозначениях) х1 и х2, которые принимают два уровня 0 и 2. Для составления схемы ПФЭ 2 (или ПФЭ 2´ 2) следует два уровня первого фактора повторить на нижнем и на верхнем уровнях второго фактора: 00, 20, 02, 22.

Для составления схемы ПФЭ 2´ 2´ 2 (или ПФЭ 23) в факторном пространстве {ххх3} следует все комбинации первых двух факторов (т.е. всю схему 22) повторить на нижнем и на верхнем уровне третьего фактора х3. Общее число вариантов будет равно = 2= 8. Эта схема называется также восьмимерной схемой. На рис. 5 изображена схема 2´ 2´ 2 в декартовой системе координат {ххх3}. Варианты этой схемы геометрически представляют собой вершины куба, соединенные линиями. Звездочкой обозначен центр схемы (точка пересечения диагоналей куба).

Для составления схемы 2´ 2´ 2´ 2 (или 24) следует схему 23 повторить на нижнем и верхнем уровнях четвертого фактора Х4. Общее число опытов будет равно = 2= 16.

Рис. 5. Схема ПФЭ 2´ 2´ 2

Полные факторные схемы ПФЭ допускают максимально возможное число сравнений вариантов. Рассмотрим, например, первые два варианта 000 и 200 схемы ПФЭ 23. На рис. 5 эти варианты располагаются вдоль оси х1. Эти два варианта различаются только воздействием х1: при переходе от первого варианта ко второму значение х1 возрастает на две единицы. Следовательно, разница в результатах (у2 - у1) характеризует линейный эффект фактора х1 - изменение отклика у (урожайности, прибыли и т.п.) при увеличении х1 на две единицы: = (у2 - у1)/2 (х2 = 0,  х3 = 0).

Сравнивая попарно все варианты, связанные с осью х1 (020 - 200, 002 - 202 и 022 - 222), находим ещe три оценки линейного эффекта фактора х1:

= (у4 - у3)/2 (х2 = 2,  х3 = 0); = (у6 - у5)/2 (х2 = 0,  х3 = 2); = (у8 - у7)/2 (х2 = х3 = 2).

Среднее арифметическое четырех оценок будет эквивалентно четырехкратной повторности простого опыта для определения линейного эффекта фактора х1:

==.

В числителе стоит алгебраическая сумма наблюдаемых откликов с чередующимися знаками.

Все результаты схемы ПФЭ 23 можно использовать повторно - на этот раз для оценки линейного эффекта второго фактора х2. Для этого надо сравнить пары вариантов, расположенные вдоль оси х2, и получить среднее арифметическое этих четырех оценок, что будет эквивалентно четырехкратной повторности простого опыта для определения этого эффекта:

.

И, наконец, все результаты схемы 23 можно использовать третий раз для оценки линейного эффекта третьего фактора х3. Для этого надо сравнить варианты, расположенные вдоль оси х3, т.е. четыре варианта на нижней крышке куба (см. рис. 5) с соответствующими вариантами на верхней крышке куба: 000 – 002, 200 – 202, 020 – 022, 220 – 222.

Легко продемонстрировать преимущество полной факторной схемы перед традиционной. По сравнению с простым опытом для оценки трех эффектов b, b, b3 мы уже выиграли в объеме работы в 3 раза и это еще не все.

Если сравнивать оценки , то легко заметить, что они получены при одном и том же значении фактора х3  = 0, но при разных значениях фактора х. Поэтому разница в этих оценках характеризует “взаимодействие линейных факторов” – на сколько изменяется линейный эффект фактора х1 при изменении фактора х2 на единицу: . По второй паре и находим еще одну оценку взаимодействия .

Среднее арифметическое этих оценок будет в 2раза надежнее

Аналогично вычисляются взаимодействия первого и третьего факторов, а также второго и третьего:

; .

Сравнивая две оценки для взаимодействий линейных факторов и , приходим к понятию "взаимодействие трех факторов" – на сколько меняется взаимодействие двух факторов х1х2 при изменении третьего фактора х3 на единицу:

.

Наконец, можно вычислить среднее арифметическое:

По результатам 8-ми вариантов найдено 8 оценок – (, b, b, b, b12 , b13 , b23 , b123), что является пределом насыщения схемы 2´ 2´ 2. Но все эти вычисления приводят к интерполяционному уравнению

,

включающему линейные члены, парные и тройное взаимодействие. Априори (до опытов), планируя ПФЭ 23, мы предполагали отсутствие в этом уравнении квадратичных членов типа ßii  х(i = 1, 2, 3). Проверка адекватности этого уравнения заключается в проверке гипотезы о том, что сумма коэффициентов при квадратичных членах ß11 + ß22 + ß33 = 0, а также гипотезы о том, что дисперсия s остаточной ошибки этого уравнения и дисперсии s ошибки воспроизводимости опыта равны, т.е., что s = s . Для этого в центре плана (точке 111, обозначенной на рис. 5 звездочкой) дополнительно выполняются несколько параллельных опытов. Если значение ур рассчитанное по интерполяционному уравнению и наблюдаемое значение (х*, х*, х*) в центре плана совпадают (в пределах точности опыта) и не отклоняется гипотеза о том, что s = s , то такое уравнение считается адекватным результатам эксперимента (Цейтлин, 2007, с. 657).

Однако может оказаться, что полученное интерполяционное уравнение не адекватно результатам эксперимента. Причиной этого может быть отклонение гипотезы о равенстве коэффициентов ß11 + ß22 + ß33 = 0. Члены уравнения ßii х отражают нелинейный (параболический) характер зависимости отклика от соответствующих факторов. Таким образом, мы приходим к необходимости ввести квадратичные эффекты ßii.

Схемы ПФЭ 2k являются схемами первого порядка, поскольку они позволяют оценивать параметры только линейной модели. Линейные модели в биологии и экологии часто оказываются неадекватными, поэтому не имеют самостоятельного значения и входят в состав более сложных схем.

2. ПФЭ типа 3k – так обозначают полные факторные схемы при трех уровнях варьирования k факторов. Это схемы являются схемами второго порядка, т.е. допускают вычисление параметров полной квадратичной модели. Количество планируемых опытов равно n = 3k, поэтому будем рассматривать только три схемы - по 3´ 3 = 9, 3´ 3´ 3 = 27 и 3´ 3´ 3´ 3 = 81 опытов соответственно.

Для составления схемы 3´ 3 три уровня (0–1–2) первого фактора х1 выписываем на нижнем, среднем и верхнем уровнях второго фактора х2. На рис. 6 приведено графическое изображение схемы в декартовой системе координат {х, х2}.

Схема насыщенная и позволяет определить 9 эффектов:

– средний уровень выхода; b, b2 – линейные эффекты;

b11 , b22 , b12 – квадратичные эффекты и взаимодействие факторов;

Рис. 6. Схема ПФЭ 3´ 3

b112 , b122 – взаимодействие квадратичных и линейных эффектов;

b1122 – взаимодействие квадратичных эффектов.

В табл. 4, описывающей ту же схему, используется иная знаковая кодировка факторов: -1 (представлен знаком “-”) - нижний уровень, 0 - средний и 1 (знак “+”) - верхний.

Таблица 4

Схема ПФЭ 3´ 3 в виде, удобном для математической обработки

х1х2

х1

х2

х1х2

х12

х22

х11 х1– 2/3

х22 х2– 2/3

1

00

+

+

+

1/3

1/3

2

10

0

0

0

+

-2/3

1/3

3

20

+

+

+

1/3

1/3

4

01

0

0

+

0

1/3

-2/3

5

11

0

0

0

0

0

-2/3

-2/3

6

21

+

0

0

+

0

1/3

-2/3

7

02

+

+

+

1/3

1/3

8

12

0

+

0

0

+

-2/3

1/3

9

22

+

+

+

+

+

1/3

1/3

Суммы

0

0

0

6

6

0

0

Суммы квадратов

6

6

4

   

2

2

Обработку результатов этой схемы также можно провести описанным выше методом сравнений. Опуская промежуточные подстановки, получим среднюю арифметическую оценку линейных эффектов факторов х1, х2 и их парное взаимодействие:

; ; .

Отметим, что чередование знаков в числителе для эффектов b и b полностью совпадает со столбцами х1 и х2 в табл. 4 соответственно. Суммы квадратов значений этих факторов равны 6, что соответствует знаменателям формул. Чередование знаков в числителе формулы для эффекта взаимодействия b12  совпадает с чередованием знаков столбца х1х, а сумма квадратов этого фактора также равна знаменателю.

Рассуждая аналогично, получим формулу вычисления квадратичного эффекта b11. В отличие от предыдущих случаев сумма значений нового фактора х12 равна 6 (а не 0) и среднее значение этого фактора 6/= 2/. Вводим фиктивный центрированный квадратичный фактор х11 х1– 2/, для которого получается нужное чередование знаков (см. табл. 4), а квадратичный эффект вычисляем по общей формуле:

= = ,

что совпадает с формулой, полученной методом сравнений.

Аналогично вычисляется квадратичный эффект второго фактора:

.

Интерполяционное уравнение для схемы 3´ 3 имеет вид:

.

Ввиду изменчивости наблюдений расчетные значения ур также будут случайными оценками с дисперсией , где – среднеквадратичная ошибка опыта (прямых наблюдений); n – количество опытов в схеме, m – повторность опыта; d(x) – коэффициент, зависящий от типа схемы, оцениваемого варианта и вида интерполяционного уравнения. Значения d(x) для уравнения вычисляются по формуле , где z – базисные функции xi; cij  – элементы матрицы, обратной к матрице коэффициентов корреляции .

Повторность опыта m определяется из требования, чтобы дисперсия ошибки расчетного значения для наихудшего варианта схемы была не больше случайной ошибки прямого наблюдения (если бы такой вариант был условно реализован с учетом с - кратного повторения последнего): ; откуда. Число условных повторений с, влияющее на общее число опытов, определяется экспертами в зависимости от длительности опытов, физических и финансовых возможностей. Если эксперименты очень дороги, то с = 1 (параллельные опыты планируют только в центре плана). В сельском хозяйстве, где опыты очень длительные, рекомендуется принимать условное число повторений с равное 4 или 5. Для схемы 3´ 3 величина коэффициента d(х) зависит от значений факторов х1, х2, и его наибольшее значение достигает dmax= 7.25. Подсчитываем необходимую повторность опыта: m ³ 7.25с/9 = 0.8с. Округляя, получим m = 1 при с = 1 и m = 4 при с = 5.

Для составления схемы ПФЭ 3´ 3´ 3, или 33, необходимо схему 3´ 3 повторить на нижнем, среднем и верхнем уровнях третьего фактора х3. Изображение схемы в факторном пространстве х1х2х3 становится уже достаточно громоздким, поэтому кроме аксонометрического рисунка полезно иметь сечения куба по различным уровням какого-либо фактора, например, х3 (см. рис. 7).

Для схемы 3´ 3´ 3 при dА= 13,75 получаем необходимую повторность опыта и общее число опытов с учетом повторности nm = 27× (2 ¸  3) = 54 ¸  81. Для схемы 34 (четыре фактора, три уровня варьирования) аналогичным образом получено dmax = 22,5; = 1¸ 2; nm = 81 ¸ 162.3.

3. ПФЭ типа 4k – полные факторные схемы при четырех уровнях варьирования k факторов. Эти схемы являются схемами третьего порядка, т.е. допускают вычисление параметров полной кубичной модели. Число опытов схемы равно = 4k.

Рис. 7. Схема ПФЭ 3х3х3 (аксонометрия и частные проекции)

 

Дробный факторный эксперимент (ДФЭ) и латинские квадраты

Факты - упрямая вещь, но статистика гораздо сговорчивее.

Лоренс Питер

Количество опытов в полном факторном эксперименте значительно превосходит число определяемых коэффициентов линейной модели. Другими словами, полный факторный эксперимент обладает некоторой избыточностью опытов. Было бы заманчивым сократить их число за счет той информации, которая не очень существенна при построении линейных моделей. При этом нужно стремиться к тому, чтобы матрица планирования не лишилась бы своих оптимальных свойств. Как метод сокращения числа опытов, особенно актуальный при количестве переменных больше трех, Д. Финни (1970) в 1945 г. предложил дробные реплики от ПФЭ типа 2k.

Рассмотрим разложение на две полуреплики ПФЭ 23, который позволяет определить 8 эффектов: (, b1, b2, b3, b12, b13, b23, b123). Из этих эффектов самым бесполезным является тройное взаимодействие факторов х1х2х, поскольку оно относится к наименее значимой группе кубичных эффектов. Из полного опыта 23 отберем в дробную реплику те варианты, для которых х1х2х= 1. Для этого выписываем ПФЭ 22 и дописываем значения третьего фактора как произведение первых двух хх1х2 или х= -х1х2 (см. табл. 5).

Таблица 5

Полуреплики ПФЭ 23

1-я полуреплика 23–1 (х1х2х3=+1) 2-я полуреплика 23–1 (х1х2х3= -1)

х1

х2

х3 = х1х2

х1х2х3

 

х1

х2

х3 = х1х2

х1х2х3

1

+

002

 

1

000

2

+

200

 

2

+

+

202

3

+

020

 

3

+

+

022

4

+

+

+

222

 

4

+

+

220

Обе полуреплики абсолютно равноценны. На рис. 8 эти схемы изображены в факторном пространстве {х, х, х3}. Оказывается, точки плана образуют правильные симплексы. Напомним, что для трeх факторов правильный симплекс - это 3 точки в вершинах равностороннего треугольника, для четырeх факторов - это 4 точки в вершинах равностороннего тетраэдра и т.д.

Рис. 8. ДФЭ 23–1 (ххх3 = 1) и ДФЭ 23–1 (ххх3 = –1)

Таким образом, дробные реплики представляют собой 1/2, 1/4 или 1/8 часть ПФЭ типа латинских и греко-латинских квадратов, латинских и греко-латинских кубов и гиперкубов (при размерности, большей 3). Напомним, что латинским квадратом называется квадратная таблица, такая, что каждый из n элементов (букв или чисел) встречается в точности один раз в каждой строке и в каждом столбце. В частности, из трех элементов образуется латинский квадрат 3x3

А В С

В С А

C A B

Считается, что одним из первых исследовал свойства латинских квадратов Л. Эйлер, который предложил в 1779 г. задачу о 36-ти офицерах как некий математический курьез. Он поставил вопрос, можно ли выбрать из 36 офицеров шести рангов и шести полков по одному офицеру каждого ранга от каждого полка и расположить их в каре так, чтобы в каждом ряду и в каждой шеренге было бы по одному офицеру каждого ранга и по одному от каждого полка. Задача эквивалентна построению парных ортогональных квадратов 6´ 6. Нетрудно заметить, что обе схемы на рис. 8 являются латинскими квадратами размера 2´ 2 (или латинские квадраты 1 и 2 на рис 9).

Рис. 9. Латинские квадраты 1 и 2 к рис. 8 и латинский куб 2´ 2´ 2

При построении дробных реплик используют следующее общее правило: для того, чтобы сократить число опытов при введении в планирование нового фактора, нужно поместить этот фактор в вектор-столбец матрицы, принадлежащий взаимодействию, которым можно пренебречь.

Дробные реплики находят широкое применение при получении линейных моделей, причем целесообразность их применения возрастает с ростом количества факторов. Реплики, которые используются для сокращения числа опытов в 2m раз, где m = 1, 2, 3, 4..., называются регулярными. Они пользуются большой популярностью, так как позволяют производить расчет коэффициентов уравнения так же просто, как и в случае полного факторного эксперимента.

В табл. 5 мы рассмотрели регулярную 1/2-реплику от ПФЭ 23, требующую 4 опыта. Таким же образом можно последовательно получить реплики различной дробности: 1/2-реплику от ПФЭ 24, 1/4-реплику от ПФЭ 25, 1/8-реплику от ПФЭ 26 и 1/16-реплику от ПФЭ 27. Во всех этих случаях экспериментатор ставит уже 8 опытов, предельное число факторов для которых - 7. В этом случае оценивается восемь коэффициентов линейного уравнения у = b0 + b1x1 + b2x2 + b3x3 + b4x4 + b5x5 + b6x6 + b7x7 и число степеней свободы становится равным нулю.

С ростом числа факторов увеличивается дробность реплик и усложняется система смешивания факторов. При числе факторов от 8 до 15 приходится ставить 16 опытов. С ростом числа факторов дробность реплик растет следующим образом: 1/32-реплика от ПФЭ 29, 1/64-реплика от ПФЭ 210, 1/128-реплика от ПФЭ 211, 1/256-реплика от ПФЭ 212, 1/512-реплика от ПФЭ 213, 1/1024-реплика от ПФЭ 214 и 1/2048-реплика от ПФЭ 215. Предельное число факторов для 16 опытов - 15. План с предельным числом факторов для данного числа опытов и заданной модели называется насыщенным. В этом случае число опытов равно числу оцениваемых коэффициентов. Можно далее рассматривать построение дробных планов для числа факторов от 16 до 31 (при этом необходимо ставить 32 опыта) и более. Однако для решения столь сложных задач рекомендуется применять методы отбора факторов, например, метод случайного баланса (Налимов, Чернова, 1965).

При применении дробных реплик линейные эффекты смешиваются с эффектами взаимодействий. Эффективность применения дробных реплик зависит как от удачного выбора системы такого смешивания, так и от умелой стратегии экспериментирования в случае значимости некоторых взаимодействий. Априорные сведения о взаимодействиях могут оказать большую услугу экспериментатору.

Чтобы определить систему смешивания, нужно знать определяющие контрасты и генерирующие соотношения. Определяющим контрастом называется символическое обозначение произведения любых столбцов, равное +1 или -1. Чтобы определить, какие взаимодействия смешаны с каждым линейным эффектом, нужно умножить определяющий контраст на этот линейный эффект и получить генерирующие соотношения. Например, если имеются следующие генерирующие соотношения: x= x2x3, x2 = x1x3 и x3 = x1x2, то определяющий контраст будет 1 = x1x2x3. Реплики, у которых линейные эффекты смешаны с взаимодействиями наивысшего порядка, являются наиболее эффективными, так как обладают наибольшей разрешающей способностью. Для освобождения линейных эффектов от взаимодействий первого порядка можно использовать метод "перевала". Смысл метода - в добавлении новой реплики, все знаки которой противоположны исходной реплике.

Метод Д. Финни по сокращению числа опытов может быть распространен также на случай, когда число уровней кратно степени 2 (т.е. при составлении планов ДФЭ 4k- р, ДФЭ 8k–р и т.д.) Практически интересны только ДФЭ типа 4k–р (k факторов, р связей, 4 уровня). Каждый фактор х, принимающей 4 уровня, представляем в виде двух квазифакторов a , b , принимающих только 2 уровня (± 1). Тогда ПФЭ 4k будет эквивалентен ПФЭ 22k. После составления ДФЭ 22k–2р делаем обратный переход от квазифакторов к исходным факторам по формуле х= 2a b .

Составим для примера ДФЭ 43–1, т.е. 3 фактора, 1 связь, 4 уровня. Число опытов равно n = 43–1 = 16, т.е. четверть вариантов полной схемы. После перехода к квазифакторам a , b этот план будет полностью эквивалентен ДФЭ 26–2, т.е. 6 факторов, 2 связи, 2 уровня. Выбираем связи a 1a 2a= 1 и b 1b 2b= 1. В табл. 6 выписаны варианты ПФЭ 24 a 1a 2b 1b 2 и затем по этим данным вычислены значения a a 1a 2 и b b 1b. Относительно a 1a 2a 3b 1b 2b получается схема ДФЭ 26–2 . В последних колонках табл. 6 эта схема преобразована в ДФЭ 43–1.

Таблица 6

Составление ДФЭ 26–2 и ДФЭ 43-1

a 1

a 2

a 3=a 1a 2

b 1

b 2

b 3=b 1b 2

х1

х2

х3

х1х2х3

1

+

+

–3

–3

3

003

2

+

+

–3

–1

1

012

3

+

+

–3

1

–1

021

4

+

+

–3

3

–3

030

5

+

+

–1

–3

1

102

6

+

+

+

+

–1

–1

3

113

7

+

+

–1

1

–3

120

8

+

+

+

+

–1

3

–1

131

9

+

+

1

–3

–1

201

10

+

+

1

–1

–3

210

11

+

+

+

+

1

1

3

223

12

+

+

+

+

1

3

1

232

13

+

+

3

–3

–3

300

14

+

+

+

+

3

–1

–1

311

15

+

+

+

+

3

1

1

322

16

+

+

+

+

+

+

3

3

3

333

После составления ДФЭ 26–2 переходим от квазифакторов a  , b к факторам х или w согласно табл. 7, и получаем искомую ¼-реплику ДФЭ 43–1 . Здесь w = Х/D Х; Х - натуральное значение фактора, D Х - интервал варьирования фактора.

Таблица 7

Соответствие между факторами и квазифакторами

Квазифакторы

х

w

Латинская

буква

a

b

–3

0

А

+

–1

1

В

+

1

2

С

+

+

3

3

D

Варианты этой ¼-реплики можно представить в виде латинского квадрата размера 4´ 4, строки которого означают уровни фактора х, столбцы – уровни фактора х, на пересечении латинскими буквами обозначены уровни третьего фактора х(рис. 10).

Схема 43 может быть разложена на 4 взаимо-ортогональных латинских квадрата (при различном выборе связей между квазифакторами).

О. Кемптроном в 1952 г. предложен способ составления ДФЭ 3k–р, ДФЭ 5k–р и даже ДФЭ 7k–р (для простого числа уровней). Здесь практически интересен только случай трех уровней 3k–р.

 

Рис. 10. Латинский квадрат 4´ 4

Таким образом, дробный факторный эксперимент является эффективным средством снижения трудоемкости проведения исследования при числе факторов больше трех и разном числе уровней их варьирования. Например, при исследовании влияния 15 факторов на двух уровнях можно в 2048 раз сократить число опытов, применяя реплику большой дробности (6 опытов вместо 32 768). Однако дробные реплики составляются не только для сокращения общего числа вариантов полной схемы, но и для ее рандомизации с целью нейтрализовать некоторые источники неоднородностей.

Рандомизированные блоки, квадраты и связанные с ними планы

Если ты перестал встречать трудности, значит, ты сбился с пути.

М. Генин

Как обсуждалось выше, наличие различных неоднородностей - типичное явление для любого реального эксперимента. В обычной практике планирования искажающее влияние таких "неуправляемых" факторов пытаются уменьшить, сделать случайным пространственно-временное распределение условий проведения эксперимента. Если многофакторный эксперимент проводится в совершенно случайном порядке так, что исходный материал можно приближенно считать однородным, то влияние источников неоднородностей в большой мере исключается и тем самым уменьшается систематическая ошибка.

Пусть необходимо провести полный факторный эксперимент ПФЭ 23 (см. рис. 5). Экспериментатор имеет возможность поставить в первый день 4 опыта, а затем через некоторое время еще 4 опыта. Можно ли опыты ставить подряд и в первый день реализовать опыты 1, 2, 3 и 4, а во второй - 5, 6, 7 и 8? В такой последовательности опыты ставить не рекомендуется. Поскольку внешние условия первого дня могут каким-то образом отличаться от последующего, это способствует возникновению некоторой систематической ошибки e . В результате значения выходного параметра у будут сдвинуты на величину e по сравнению с истинными значениями, т.е. оценки эффектов факторов получатся смещенными.

Эксперимент будет проведен более корректно, если последовательности опытов придать случайный порядок. Для этого можно воспользоваться таблицей случайных чисел или применить метод "попугая и морской свинки" (номера опытов записываются на карточках, которые тщательно перемешиваются и затем извлекаются). Такой способ называется "планированием без ограничений на рандомизацию".

Рассмотрим еще один пример, подобный "ротамстедскому опыту" (см. гл. 1). Пусть нужно изучить влияние внесения калийных удобрений К и навоза Н на урожайность картофеля. Каждый из этих факторов варьируется на четырех уровнях. Пусть эксперимент проводится на четырех различных сортах картофеля. Обозначим сорта буквами А, В, С и D.

Совершенно очевидно, что эксперимент нельзя проводить так, как показано в табл. 8 (а) и (б). В подтаблице (а) эффект Н полностью защищен от возможного различия в сортах картофеля, поскольку каждый сорт картофеля встречается по одному разу в каждом столбце. Однако с эффектом сортности полностью смешан эффект внесения удобрений. В подтаблице (б) наблюдается противоположная картина.

Таблица 8

Варианты планов ротамстедского опыта с разным уровнем рандомизации

Внесено удобре-ний

(а) Эффект сортности смешан с эффектом удобрений

 

(б) Эффект сортности смешан с эффектом внесения навоза

 

(в) Рандомизированный план

Внесено навоза

 

Внесено навоза

 

Внесено навоза

Н1

Н2

Н3

Н4

 

Н1

Н2

Н3

Н4

 

Н1

Н2

Н3

Н4

К1

А

А

А

А

 

А

В

С

D

 

В

А

С

D

К2

В

В

В

В

 

А

В

С

D

 

А

В

В

В

К3

С

С

С

С

 

А

В

С

D

 

А

А

D

D

К4

D

D

D

D

 

А

В

С

D

 

С

С

D

С

Нужно заготовить 16 карточек, написав на 4 из них А, на других 4 - В и т.д., тщательно размешать и затем вынимать по одной и раскладывать по порядку слева направо по уровням, идя сверху вниз. Результат одной из таких процедур показан в табл. 8 (в). Однако этот метод не является наилучшим, так как для более сложных планов из огромного числа распределения воздействий по экспериментальным единицам очень трудно найти оптимальный вариант. Более эффективным средством в борьбе с влиянием источников неоднородностей является планирование с ограничением на рандомизацию.

Задача состоит в разложении множество реализаций полного опыта на такие блоки, чтобы внутри каждого из них было возможно проведение испытаний для всех уровней основных факторов в однородных условиях. Поскольку истинная рандомизация проводится только внутри блоков, поэтому говорят, что блоки представляют собой ограничение на рандомизацию. Ошибки, возникающие вследствие неоднородности в условиях проведения эксперимента, здесь представляются как межблоковые эффекты, и нужно, чтобы с ними не был смешан ни один из интересующих нас целевых эффектов (линейные, квадратичные эффекты и взаимодействия линейных факторов). Тогда влияние неконтролируемого фактора (например, исходного плодородия участков) можно считать случайным и все оценки параметров модели будут несмещенными.

Предположим, что в общем случае у нас есть a воздействий, эффект которых нужно оценить, и b блоков. Статистическая модель дисперсионного анализа рассматриваемого плана эксперимента имеет вид

yij = m + t i + b j + e ij,

где yij - экспериментальный результат, полученный при воздействии i -го фактора (i = l, 2, ..., a) на экспериментальные единицы в j-м блоке (j = l, 2, ..., b); m - математическое ожидание общего среднего; t i - эффект i-го фактора; b j - эффект j-го блока; e ij - случайная ошибка, распределенная по нормальному закону.

В символическом виде разбиение общей суммы квадратов отклонений yij от общего среднего значения SSобщ можно записать как

SSобщ = SSфак + SSбл + SSош.

Поскольку a - число факторов, а b - число блоков, то суммы квадратов средних отклонений для каждого i-го фактора SSфак и для каждого j-го блока SSбл от общего обладают a и b степенями свободы соответственно. Число всех наблюдений составляет N = ab, поэтому сумма SSобщ обладает N - 1 степенью свободы. Сумма квадратов SSош, обусловленная ошибкой, находится вычитанием SSош = SSобщ - SSфак - SSбл + SSош и имеет (a - 1)(b - 1) степеней свободы.

Пусть нас интересует проверка значимости эффектов воздействия факторов t i, чему соответствуют гипотезы - нулевая Ho: t 1 = t 2 = … = t a = 0 и альтернативная H1t i ¹  0 хотя бы для одного i. Тогда для проверки равенства эффектов обработок должна использоваться статистика , подчиняющаяся F-распределению Фишера с (а - 1) и (а - 1)(b - 1) степенями свободы при условии истинности нулевой гипотезы. Критической областью является верхний шлейф F-распределения, и мы отклоняем Ho, если

Fo > Fa a-1, (а-1)(b-1).

Мы можем также проверить гипотезу H0: b j = 0, воспользовавшись статистикой Fo = SSбл(b-1)/SSош. Эта гипотеза утверждает, что блоки не отличаются друг от друга. Такая проверка часто используется для того, чтобы определить, следует ли проводить группирование в блоки при аналогичных экспериментах в будущем.

Иногда удобнее рассматривать множество блоков как совокупность уровней нового фактора. Однако необходимо учитывать, что межблоковые эффекты часто требуют только исключения, а не оценки. Простейшим примером планирования с исключением влияния двух типов неоднородности (двух блоковых факторов) являются упомянутые выше латинские квадраты, впервые использованные в 30-х годах прошлого века Р. Фишером в сельскохозяйственных экспериментах для преодоления затруднений, возникающих из-за различий в плодородности почв.

Большинство планов основано на стандартных формах латинских квадратов n´ n. С позиций факторного планирования латинский квадрат n´ n можно рассматривать как пример неполного трехфакторного эксперимента. Пусть все три фактора интересуют экспериментатора в равной мере, т.е. все они являются главными и имеют одно и то же число уровней n. Наблюдения проводятся в n2 из n3 возможных совокупностей условий, т.е. опытов требуется в n раз меньше, чем при полном факторном эксперименте. В таком контексте латинский квадрат можно рассматривать как 1/n реплику от полного факторного эксперимента n3.

Чтобы использовать латинский квадрат при планировании эксперимента, нужно подвергнуть стандартный квадрат процедуре рандомизации. При этом уровни факторов приписываются случайным образом для столбцов, рядов и латинских букв соответственно. Например, в табл. 8 строки связаны с внесением калийных удобрений столбцы - с внесением навоза, а латинская буква обозначает сорт картофеля. Нетрудно заметить, что для этого эксперимента вместо найденного случайного плана (в) более целесообразным было бы использование латинского квадрата, представленного на рис. 10. Расположение элементов такого квадрата оптимально в том смысле, что каждый элемент встречается один и только один раз в столбце и в строке.

Это свойство латинских квадратов используется для построения рандомизированных планов. Каждый из этих планов представляет собой табличную запись факторного эксперимента типа n2, на которую наложен n´ n латинский квадрат, являющийся как бы частью плана. Например, в плане 1 на табл. 9 изучается влияние трех факторов, каждый из которых изменяется на трех уровнях. Два из них образуют факторный эксперимент ФЭ З2, уровни третьего фактора - три источника неоднородностей образуют 3´ 3 латинский квадрат. В плане 2 изучается влияние трех факторов на четырех уровнях. Два фактора образуют ФЭ 42, четыре источника неоднородностей расположены по схеме 4´ 4 латинского квадрата. Каким бы ни было нарушающее влияние источников неоднородностей, оно в равной мере скажется при подсчете средних значений по строке и по столбцу.

Таблица 9

Варианты планов на основе латинских квадратов

В

План 1. 3´ 3 латинский квадрат

 

В

План 2. 4´ 4 латинский квадрат

А

 

А

a1

a2

a3

 

a1

a2

a3

a4

b1

c3

c2

c1

 

b1

c1

c2

c3

c4

b2

c2

c1

c3

 

b2

c2

c3

c4

c1

b3

c1

c3

c2

 

b3

c3

c4

c1

c2

         

b4

c4

c1

c2

c3

Очевидным ограничением применений латинского квадрата является то, что все факторы должны иметь одно и то же число уровней. Поэтому квадраты размером более чем 10´ 10 практически не применяются. Схема латинского квадрата является трехфакторным планированием и непригодна для числа факторов более трех.

Греко-латинские квадраты (т.е. комбинации двух ортогональных квадратов n´ n) могут использоваться при планировании экспериментов для систематического контроля трех источников мешающей неоднородности, т.е. для группирования в блоки по трем направлениям. Такие планы позволяют исследовать всего при n2 наблюдениях четыре фактора (строки, столбцы, латинские и греческие буквы), причем каждый из них на n уровнях. Греко-латинские квадраты существуют для всех n ³ 3, кроме n = 6.

Планы, основанные на латинских и (гипер-) греко-латинских квадратах называются рандомизированными полноблочными планами. Слово "полнота" означает здесь, что каждый блок содержит все возможные варианты воздействий. Существует довольно большое число латинских квадратов заданного размера, поэтому их можно пронумеровать и выбрать один из них случайным образом. Обычно для этого используются таблицы латинских квадратов [например, в монографии Р. Фишера и Ф. Йетса (Fisher, Yates, 1953)], причем порядок следования строк, столбцов и букв задается произвольно.

Математические модели и статистический анализ латинских квадратов

Математическая идея: в корне изменить степень свободы

В. Шендерович

В терминах дисперсионного анализа латинский квадрат является неполной классификацией с ограничением на рандомизацию. При планировании такого типа изучается влияние трех источников дисперсии: первый источник - строка (фактор А), второй источник - столбец (фактор В) и третий источник - латинская буква (фактор С).

Результаты эксперимента представляются в виде линейной модели:

yijk = m + a i + b j + g k + e ijk,

где yijk - экспериментальный результат, полученный с i-м уровнем фактора А, j-м уровнем фактора В и k-м уровнем фактора С; m . - общий эффект во всех опытах (истинное среднее совокупности, из которой получена выборка); a i - эффект строки (фактора А); b j - эффект столбца (фактора В); g k - эффект элемента квадрата - источника неоднородности (фактора С); e ijk - случайная ошибка в эксперименте.

Главными эффектами являются a i и b j. Они защищаются группировкой элементов квадрата. Латинский квадрат позволяет осуществлять двойной контроль дисперсии экспериментальных данных, т.е. контроль эффектов столбцов и строк на отсутствие влияния источников неоднородностей.

При применении латинских квадратов статистический анализ экспериментальных данных существенно опирается на предположение об аддитивности, т.е. высказывается предположение, что эффекты взаимодействия незначимы, и поэтому можно ограничиться только линейной моделью. Это предположение может быть ошибочным, если в действительности имеет место ярко выраженная нелинейность взаимодействия.

Схемы дисперсионного анализа несколько отличаются друг от друга в зависимости от наличия (или отсутствия) повторных опытов. Поэтому рассмотрим две схемы статистического анализа.

Схема 1. Эксперимент без повторных измерений

1. Подсчитываются итоги по строкам Аi, по столбцам Bj и по латинским буквам Ск. Далее рассчитываются вспомогательные суммы квадратов, перечисленные ниже.

2. - сумма квадратов результатов всех наблюдений

3. ; ; - суммы квадратов итогов по строкам, столбцам и каждой латинской букве соответственно, деленные на размерность квадрата.

4. SS5 = G2/n2= =G2/N - корректирующий член, равный квадрату общего итога, деленному на общее число ячеек квадрата (т.е. на число опытов).

5. Сумма квадратов для строки, столбца и каждой латинской буквы соответственно:

SSa = SS2 - SS5 ; SSb = SS3 - SS5 ; SSc = SS4 - SS5 .

6. SSобщ = SS1 - SS5 - общая сумма квадратов, которая равна разнице между суммой квадратов всех наблюдений и корректирующим членом.

7. SSош = SSобщ - (SSa + SSb + SSc) - остаточная сумма квадратов, служащая для оценки ошибки эксперимента. Остаточная дисперсия является суммарной величиной и складывается из дисперсий, обусловленных ошибкой опыта и взаимодействий, если таковые имеются.

Результаты расчета вносятся в таблицу дисперсионного анализа (табл. 10).

Таблица 10.

Дисперсионный анализ планов латинского квадрата (без повторения опытов)

Источник

дисперсии

Число степеней свободы

Сумма квадратов SS

Средний квадрат MS

Математическое ожидание

среднего квадрата

Строки a i

n - 1

SSa = SS2SS5

(SSa)/(n - l)

Столбцы b j

n - 1

SSb = SS3SS5

(SSb)/(n - l)

Латинские буквы g k

n - 1

SSc = SS4SS5

(SSc)/(n - l)

Остаток (ошибка)

e ijk

(n - 1)( n - 2)

SSош = SSобщ - (SSa + SSb + SSc)

SSош /

(n - 1)( n - 2)

Итого

n2 - 1

SSобщ = SS1SS5

Значимость линейных эффектов проверяется по критерию Фишера, как показано выше. Если результаты дисперсионного анализа указывают на значимость линейных эффектов, т.е. значимы различия математических ожиданий по средним, то возникает вопрос, какие именно математические ожидания различны? Для проверки различия математических ожиданий применяются параметрические и непараметрические критерии: t-критерий, F-критерий, ранговый критерий Дункана и др.

Схема 2. Эксперимент с повторными измерениями

Рассмотрим n´ n латинский квадрат, в каждой ячейке которого имеется m наблюдений. Допустим, что двухфакторные и трехфакторные взаимодействия несущественны по сравнению с главными эффектами. Тогда модель эксперимента можно представить в виде

yijkm = m + a i + b j + g k + res + e ijkm,

где res (от англ. residual - остаток) - это член, включающий все источники дисперсии, которые не предсказаны линейной моделью, а остальные обозначения те же, что и в модели схемы 1.

Если в действительности парные или прочие взаимодействия незначимы, то остаточная дисперсия существенно не отличается от дисперсии, обусловленной экспериментальной ошибкой, что проверяется по F-критерию: F = (MSош)/(MSO). Это позволяет судить, соответствуют ли экспериментальные данные выбранной модели.

Рассмотрим технику вычислений в процессе статистического анализа на гипотетическом примере. Изучалась воздействие добавок трех различных биогенных элементов (три категории фактора В) на численность трех видов зоопланктона (фактор С). Гидробионты принадлежали сообществам из трех различных биокосмов (фактор А) и из каждого водоема было взято по 4 гидробиологической пробы (m = 4).

Для рандомизированного планирования эксперимента был использован 3´ 3 латинский квадрат, показанный справа в табл. 11, а слева приведены экспериментальные данные. Строки квадрата а1, а2 и а3 соответствуют водоемам, столбцы b1, b2 и b3 - воздействующим поллютантам, а элементы латинского квадрата с1, с2, и с3 - видам зоопланктона. Численность зоопланктона в пробе оценивалась условно в 12-балльной шкале. В ячейке 1 экспериментальных данных приведены зарегистрированные численности гидробионта вида с3 во всех 4 пробах из биокосма а2 в условиях воздействия биогенного элемента b1; в ячейке 2 - 4 значения численностей вида с1 принадлежали биокосму а2 при воздействии поллютанта b3 и т. д.

В правом разделе табл. 11 в каждой ячейке квадрата даны суммы четырех наблюдений, а также итоги по строкам (Аi), итоги по столбцам (Bj) и итоги по латинской букве (Сk).

Таблица 11.

Исходные данные и суммы по ячейкам примера планирования по латинскому квадрату с повторными опытами

 

Исходные данные

   

Суммирование по ячейкам

b1

b3

b2

   

b1

b3

b2

Итого по строкам

a2

6, 8,12,7

0, 0, 1, 4

0, 2, 2, 5

 

a2

c3 = 33

c2 = 5

c1 = 9

A2 = 47

a1

2, 5, 3, 1

2, 2, 4, 6

9,10,12,12

 

a1

c2 = 11

c1 = 14

c3 = 43

A1 = 68

a3

0, 1, 1, 4

2, 2, 1, 5

0, 1, 1, 4

 

a3

c1 = 6

c3 = 9

c2 = 6

A3 = 21

         

Итого по столбцам

B1 = 50

B3 = 50

B2 = 50

Итого

G = 136

         

Итого по строкам

C1 = 29

C2 = 22

C3 = 85

 

Дальнейшую вычислительную процедуру представим в виде последовательности шагов (номер шага показан в скобках) подстановки в очевидные формулы:

= 515.78 (1); = 978.00 (2); = 606.17 (3);

= 554.00 (4); = 712.50 (5); = 878.50 (6),

где символ АВС есть сумма четырех численностей в ячейке квадрата. Таким образом:

Остаточная сумма квадратов вычисляется следующим образом. Дисперсия между девятью ячейками квадрата равна SSм.я = (6) - (1) = 364.72. Этот источник дисперсии представляет совместно все факторные эффекты: главные эффекты и эффекты взаимодействий. Остаточная сумма квадратов получается путем вычитания из всех сумм квадратов главных эффектов:

SSош = SSм.я - (SSa + SSb + SSc) = (6) - (3) - (4) - (5) + 2(l) = 33.39.

Остаток res есть часть дисперсии внутри ячеек, которую нельзя получить путем сложения главных эффектов. Это — мера неадекватности линейной модели. Если не существуют взаимодействия, остаток оценивает ошибку эксперимента. Если же взаимодействия имеют место, остаток включает, в том числе и взаимодействия. Дисперсия внутри ячеек получается SSв.я. = = (2) - (6) = 99.50. Общие итоги дисперсионного анализа показаны в табл. 12.

Таблица 12

Общие результаты дисперсионного анализа (исходные данные из табл. 10)

Источник дисперсии

Число степеней свободы

Суммы квадратов

SS

Средний квадрат

MS

Критерий Фишера

F

Строка (водоем А)

Столбец (биогенный компонент В)

Латинская буква (вид гидробионта С)

Остаток

Внутри ячейки

2

2

2

2

27

92.39

40.22

198.72

33.39

99.50

46.20

20.11

99.36

16.70

3.69

12.52

5.45

26.93

4.53

Итого

35

464.22

При проверке гипотезы о незначимости всех взаимодействий используется критерий Фишера:

= 4.53.

Для 5% уровня значимости и степеней свободы f1 = 2 и f2 = 27 критическое значение F- критерия равно 3.35. Из этого следует, что экспериментальные данные не подтверждают гипотезу о незначимости эффектов взаимодействий.

Требование аддитивности на многих реальных объектах не выполняется. Поэтому статистические выводы могут оказаться несправедливыми, а адекватность планирования по латинскому квадрату сомнительна: главные эффекты смешиваются с их взаимодействиями.

Можно допустить, что фактор А (водоем) не дает взаимодействий с другими факторами. Следовательно, два главных эффекта (В и С) оцениваются самостоятельно, так как эффекты их взаимодействия с фактором А можно считать незначимыми на основании логических заключений. Значимым остается эффект взаимодействия ВС - взаимодействие между биогенным компонентом и видом зоопланктона. Если пренебречь фактором A как случайным и проанализировать экспериментальные данные по схеме факторного эксперимента ФЭ З2, то можно вычленить сумму квадратов и число степеней свободы для взаимодействия ВС.

Следовательно, выдвижение дополнительных гипотез помогает эффективно использовать данные планирования по латинскому квадрату в случае, когда гипотеза о незначимости всех эффектов взаимодействий не подтверждается.

Обзор методов планирования эксперимента

Трудное надо сделать привычным,

привычное - легким, а легкое - приятным.

К. Станиславский

В предыдущих четырех разделах мы приоткрыли маленькую частичку огромного айсберга под названием "Методы планирования эксперимента". Как справедливо заметил Н. Бейли (1962): “...планирование эксперимента - есть схема для анализа результатов на основе априорной информации”. В зависимости от уровня априорной информации экспериментатор выбирает определенную модель планирования с целью подтвердить или отвергнуть ту или иную гипотезу. Причем чем выше уровень и объем имеющихся знаний, тем более тонкие свойства объекта можно выявить в результате эксперимента и тем более изощренными становятся применяемые планы.

Создание единой системы классификации экспериментальных планов представляет собой сложную задачу. Например, Ю.П. Адлер с соавторами (1976) предлагает следующую предварительную классификацию по задачам исследования и методам планирования эксперимента, используемых для их решения: 1) планы дисперсионного анализа; 2) планы многофакторного анализа; 3) планы для изучения поверхности отклика; 4) планы отсеивающего эксперимента; 5) планы для экспериментирования в условиях дрейфа; 6) планы для динамических задач планирования; 7) планы для изучения механизма явлений; 8) планы для построения диаграмм состав - свойство и состав - состояние.

Математические модели эксперимента тесно связаны с такими математическими дисциплинами как теория вероятности и прикладная статистика. Их отношение к "действительному миру опыта" может быть определено схемой А.Н. Колмогорова, которая включает, в частности, задание некоторого комплекса s -условий, допускающего неограниченное число повторений, и изучение определенного круга событий, которые могут наступать в результате осуществления этих условий. Выбор экспериментатором оптимальных условий s опт и является планированием эксперимента. Поэтому по методу анализа и виду математической модели, используемой при представлении результатов многофакторного эксперимента, все перечисленные классы планов можно объединить в три группы: 1) планы дисперсионного анализа; 2) планы регрессионного анализа; 3) планы ковариационного анализа.

Следуя Г. Шеффе (1980), основные предпосылки указанных методов анализа при представлении результатов многофакторного эксперимента из N опытов можно записать как выражения для функций статистического распределения вектора отклика модели y(N´ 1), имеющих следующий вид:

y(N´ 1) ~ N (xтb p´ 1; s 2I) - в случае дисперсионного анализа;

y(N´ 1) ~ N (zтg k´ 1; s 2I) - в случае регрессионного анализа;

y(N´ 1) ~ N (xтb p´ 1 + zтg k´ 1; s 2I) - в случае ковариационного анализа.

Здесь xт - транспонированная матрица независимых переменных xij, которые могут быть как количественными, так и качественными; zт - транспонированная матрица количественных переменных zij, пробегающих непрерывный ряд значений; b p´ 1 - вектор эффектов (главные эффекты, эффекты взаимодействия, эффекты блоков, эффекты порядка варьирования факторов, остаточные эффекты и др.), подлежащих оценке результатам эксперимента ковариационного анализа; g k´ 1 - вектор коэффициентов регрессии; s 2 -дисперсия ошибки эксперимента; I - единичная матрица; знак “~ ” (тильда) читается "имеет распределение"; N - обозначение нормального распределения.

В алгебраической форме наиболее общий вид уравнение модели имеет для ковариационного анализа: ,

где e - случайная ошибка, относительно которой обычно постулируют некоррелированность и однородность. Модель для дисперсионного анализа включает только составляющую, основанную на xij, а для регрессионного анализа – на zij. Задача любого вида анализа заключается в установлении существенности эффектов исследуемых переменных на фоне ошибки e .

1. Планы дисперсионного анализа основаны на разложении суммарной дисперсии на составляющие. В полных классификациях дисперсионного анализа реализуются все возможные совокупности условий, задаваемые выбранной схемой эксперимента. Они применяются для исследования сравнительно небольшого числа факторов (обычно не более 5), так как полный перебор вариантов требует постановки большого числа опытов. Например, при варьировании пяти факторов на 3 уровнях необходимо поставить 243 опыта. Поэтому чаще используются неполные классификации, где ограничивается возможный набор совокупности условий проведения опыта.

Сокращение перебора вариантов может производиться случайным образом (т.е. без ограничения на рандомизацию) или в соответствии с некоторыми строгими правилами (т.е. с ограничением на рандомизацию). Среди неполных классификаций дисперсионного анализа с ограничением на рандомизацию наиболее популярными в планировании эксперимента являются неполноблочные планы (блок-схемы) и подробно описанные выше латинские планы.

В случае неполноблочных планов желательно не просто разбросать уровни внутри блоков, а постараться расположить их таким образом, чтобы, несмотря на неизбежную потерю независимости, получить достаточную информацию об основных эффектах. Каждое множество блоков можно рассматривать как дополнительный фактор, поэтому теорию неполноблочных планов можно представить как частный случай многофакторных (главным образом двухфакторных) планов.

Наиболее полно развита теория сбалансированных блок-схем (BIB-схем, или Balanced Incomplete Block). Сбалансированность схемы предполагает выполнение следующих условий: 1) каждый блок содержит одинаковое число элементов; 2) каждый элемент принадлежит одному и тому же числу блоков; 3) для каждой неупорядоченной пары различных элементов число блоков, содержащих эту пару, равно l . Сбалансированное неполноблочное планирование может быть найдено для любого числа элементов и любого размера блока, однако большинство ВIB-схем не представляет интереса для планирования эксперимента, так как перечисленные условия труднодостижимы. Не столь жесткие условия сформулированы для частично сбалансированных планов (PBIB-схем, или Partially Balanced Imcomplete Block).

Цепные блок-схемы являются специальным видом блок-схем, построенных таким образом, что пара элементов в двух соседних блоках одинакова и является связующим звеном. Цепные блок-схемы целесообразно применять в следующих ситуациях: 1) размер блока ограничен и число элементов значительно превышает этот объем; 2) сравнение элементов внутри блоков проводится с такой точностью, что достаточно одного или двух повторений; 3) все элементы можно разбить на две группы.

Специфическим типом неполноблочных планов являются решетчатые планы. Они могут быть полностью или частично сбалансированы и иметь форму квадрата, прямоугольника или куба. Так, например, план в форме квадрата может быть сбалансирован по одному фактору. В этом случае он имеет одно ограничение и носит название квадратной решетки. Но план в форме квадрата может быть сбалансирован и по двум факторам. Тогда он имеет два ограничения и называется решетчатым квадратом.

К латинским планам относятся латинские и гипер-греко-латинские квадраты, кубы, прямоугольники, параллелепипеды, а также сложные планы, построенные на базе латинских планов. Латинские прямоугольники, к одной из разновидностей которых относятся квадраты Юдена, можно построить вычеркиванием определенных строк или столбцов латинских квадратов, поэтому они еще называются неполными латинскими квадратами. Они имеют "двойное подчинение": по методу построения они связаны с латинскими квадратами по свойствам и по методам статистического анализа они близки к блок-схемам. Разноуровневый план, у которого все факторы имеют n уровней, а один фактор (n - r) уровней, называется латинским параллелепипедом.

Планы, построенные путем совмещения латинских квадратов или прямоугольников с факторными экспериментами типа 2n, называются сложными совмещенными планами. Сложные планы пригодны для линейных моделей, включающих группу количественных факторов на двух уровнях и группу качественных факторов на числе уровней m > 2. Сложные планы позволяют: 1) варьировать количественные факторы только на двух уровнях, что является достаточным для получения линейной зависимости, когда справедлива гипотеза об отсутствии взаимодействий; 2) исключить нарушающее влияние качественных факторов при подсчете линейных эффектов количественных факторов; 3) совершить движение по градиенту для количественных факторов; 4) построить оптимальный перебор комбинаций уровней качественных факторов; 5) не превысить число опытов по сравнению с факторными планами типа 2n.

2. Планы многофакторного анализа (ПМА) используются для оценки линейных эффектов и эффектов взаимодействий многих факторов, варьируемых на одинаковом (симметричные планы) или неодинаковом (несимметричные планы) числе уровней. Описанные выше полный факторный эксперимент и его дробные реплики являются основой и "классикой жанра" таких планов. Общее уравнение математической модели, представляющей результаты эксперимента по планам ПМА, имеет вид

.

 

В классе ПМА различаются следующие планы:

К этому же классу можно отнести также планы для оценки взаимодействий факторов, эффекта последовательности воздействия факторов, остаточных эффектов, перекрестные (cross-over) планы, планы с группировкой и планы с расщепленными делянками, которые обычно рассматриваются в группе планов дисперсионного анализа.

3. Планы для изучения поверхности отклика применяются для детального изучения области оптимума и участков поверхности отклика со значительной кривизной, где линейная модель становится неадекватной. Обычно используют планы 2-го и реже 3-го порядков, для математического описания которых бывает достаточно полинома, соответственно, 2-го и 3-го порядка. Планы 2-го порядка позволяют получить математическое описание в виде полной квадратичной модели, содержащей, кроме основных эффектов b j, все парные взаимодействия b jj и квадратичные эффекты b ju:

.

Композиционные планы 2-го порядка получают путем добавления 2к "звездных точек" типа {± a , 0, ..., 0}, {0, ± a , ..., 0} … и т.д. и некоторого числа центральных точек n0 к "ядру", образованному ПЭФ. Выбор величины плеча a и числа точек n0 определяется критерием оптимальности (ортогональность, ротатабельность). При построении ортогональных и ротатабельных центральных композиционных планов (ОЦКП, РЦКП) в качестве ядра используют минимально возможные регулярные реплики ДФЭ 2k-p, которые обеспечивают независимую раздельную оценку всех основных эффектов и эффектов взаимодействия. В практике сельскохозяйственного эксперимента широкое применение нашли композиционные схемы Бокса (Егоршин, 1979).

Если известно априори, что часть эффектов в модели отсутствует, то используют планы Хартли, строящиеся на основе минимальных регулярных реплик 2k-p. Планы Хартли более экономны, чем ОЦКП и РЦКП, и рекомендуются при построении интерполяционных моделей типа квадратичного полинома для объектов с малым уровнем шумов. Для этих же целей можно использовать композиционные планы Вейстлейка с еще меньшим числом точек, построенные на основе минимально возможных нерегулярных реплик.

Некомпозиционные планы применяются при наличии априорной информации о существенности кривизны поверхности отклика, позволяющей начинать эксперимент сразу с реализации плана второго порядка. К их числу относятся планы типа неполного факторного эксперимента ФЭ 3k, симплексно-суммируемые планы и прочие.

4. Планы отсеивающего эксперимента используются на стадии предварительных исследований для выделения существенных эффектов из большого количества варьируемых факторов. Эти планы также используются при решении задач планирования в условиях неоднородностей дискретного типа, источниками которых могут быть, например, разные регионы сбора данных, разные установки, исполнители, способы обработки проб и т.д. К ним прибегают и при исследовании объектов с большим количеством качественных факторов, когда необходимо построить наиболее экономные схемы планирования, позволяющие осуществить неполный перебор комбинаций качественных и количественных переменных.

В этом классе различают следующие планы.

,

где р - число значимых эффектов, l - р - число отсеиваемых незначимых факторов; e - случайная ошибка; N < l (при p < N) - число опытов плана.

5. Планы для экспериментирования в условиях дрейфа. Выше обсуждались неоднородности типа неуправляемого дрейфа, характеризующего непрерывное изменение свойств объекта во времени или по какой-либо другой координате. Действие таких неуправляемых факторов выражается, чаще всего, в виде упорядоченного изменения выходных свойств объекта, например, аддитивного смещения поверхности отклика y = f(x1, x2, ..., хк) без ее деформации. В этом случае сама функция дрейфа имеет достаточно "плавный" характер и может быть представлена полиномом невысокой степени или другой "гладкой" функцией (например, экспонентой, логарифмической зависимостью). Зная характер дрейфа, можно реализовать план, элиминирующий его влияние на исследуемые эффекты, а также оценить эффекты дрейфа.

Планы, ортогональные к непрерывному дрейфу, могут быть построены на основе таблиц полиномов Чебышева. Они используются для изучения линейных эффектов управляемых количественных факторов независимо от полиномиального дрейфа любого порядка. При необходимости оценить взаимодействия управляемых факторов используют обычные планы ПФЭ 2к, отбирая те столбцы планов, которые имеют минимальные корреляции с эффектами дрейфа. К этим же планам относятся планы Кокса, предназначенные для изучения одной количественной или качественной переменной, варьируемой на 2, 3, 4 уровнях в условиях дрейфа 2-го и 3-го порядков.

Комбинированные планы для совместного изучения количественных и качественных переменных в условиях непрерывного полиномиального дрейфа получают соответствующим комбинированием планов Чебышева и планов Кокса. Эти планы составляют основу группы планов ковариационного анализа, под которым понимаются методы, позволяющие совместно оценивать влияние управляемых факторов и факторов, которые невозможно или нелегко контролировать в эксперименте.

В отличие от дисперсионного анализа, при котором все факторы, включая источники неоднородности, рассматриваются как качественные, в ковариационном анализе часть рассматриваемых факторов исследуется качественно, а другая часть — количественно. Основные предпосылки ковариационного анализа сводятся к следующему: а) значения отклика рассматриваются как случайные величины, распределенные нормально с одинаковой дисперсией; б) влияние неуправляемых факторов выражается в виде аддитивного дрейфа, т.е. дрейф не взаимодействует с факторами, варьируемыми в процессе эксперимента. Задача экспериментатора сводится к выбору плана, обеспечивающего получение наилучших оценок эффектов исследуемых факторов, выявленных независимо от эффектов дрейфа.

6. Динамические задачи планирования можно отнести к двум типам: сводимые и несводимые к статистическим (или собственно динамические). В задачах, сводимых к статистическим, выше уровень шумов, поэтому требуется большее число параллельных опытов.

Особенности объектов приводят к использованию преимущественно последовательных планов. К ним относится, прежде всего, эволюционное планирование Бокса (ЭВОП), которое строится на базе регулярных реплик от факторных планов и метода крутого восхождения, но с многократными повторами плана и осторожным движением в сторону градиента. Известны многочисленные модификации ЭВОП, например, вращаемое ЭВОП, позволяющее проводить локацию факторного пространства с расширяющейся сферой обследования. В планах ЭВОП используются линейные модели.

Случай непрерывного варьирования рассмотрен только для одного и двух факторов. Предложены планы Бокса-Дженкинса, основанные на модулировании входных сигналов синусоидами, ортогональными друг к другу. Можно также использовать планы адаптационной оптимизации, основанные, например, на симплекс-процедуре (отражении симплекса относительно грани, противоположной к вершине с наихудшим результатом).

Если неуправляемых переменных несколько и их действие нельзя интерпретировать как дрейф, возникает задача активно-пассивного эксперимента (часть факторов образует план, а часть - измеряется; обработка результатов совместная). Иногда (особенно в очень сложных ситуациях) эффективны рандомизированные последовательности опытов, т.е. планы, основанные на методах случайного поиска.

7. Планы для изучения механизма явлений, в зависимости от уровня априорной информации, ставятся для решения следующих задач:

8. Планирование эксперимента на диаграммах состав - свойство. Специфика задачи состоит в том, что естественной координатной системой является барицентрическая сетка на симплексе. Для аппроксимации гладких поверхностей полиномом заданной степени используются симплексные решeтки Шеффе. Если на симплекс наложены линейные ограничения, то необходимо строить план на произвольном выпуклом многограннике. Для этого предложены планы Мак-Лина-Андерсона, которые задаются множеством точек, лежащих в вершинах, серединах рeбер и гранях многогранника. Для включения в план дополнительных факторов применяются симплекс-центроидные планы. Когда существует опасность смещения оценок из-за выбора низкой степени полинома, используются планы Дрейпера-Лоуренса, минимизирующие такое смещение.

Настоящий обзор является далеко не исчерпывающим. В каталоге планов МГУ (Голикова и др., 1974) рассмотрены также следующие планы: Коно, насыщенный точный, D-оптимальный, несимметричный квази-D-оптимальный, насыщенный Рехтшафнера, композиционный по отношению к планам главных эффектов, схемы Бокса-Бенкина, насыщенный симплекс-суммируемый, минимаксный для проверки неадекватности линейной модели и многие другие. Примеры постановки оптимального и экономного полевого эксперимента можно найти в методических указаниях “Проведение многофакторных опытов…" (1976). Оптимальные пространственные размещения описаны, например, в недавно вышедшей книге О.О. Егоршина и М.В. Лисового (2005).

Кроме представленных выше каталогов планов и методик их применения, основные литературные источники по математическому планированию эксперимента, которые мы бы рекомендовали для изучения, можно сгруппировать по двум направлениям. Первое представлено популярными и общими методическими публикациями В.В. Налимова (1960, 1971), В.В. Налимова и Н.А. Черновой (1965), Ю.П. Адлера (1969, 1978), Ю.П. Адлера и Ю.В. Грановского (1977), Ю.П. Адлера с соавторами (1976), E.E. Марковой и A.H. Лисенкова (1973, 1979), Д. Финни (1970), Д.К. Монтгомери (1980), H. Джонсона и Ф. Лиона (1980, 1981), М. Кендалла и А. Стьюарта (1976). Без прочтения этих трудов приступать к экспериментам - всe равно, что садиться за руль автомобиля без водительских прав. Перечисленные книги написаны настолько умно и понятно, что читаются "на одном дыхании". Далеко не исторический интерес имеют опубликованная в России работа Р. Фишера (1958) и его основной труд "The Design of Experiments", выдержавший за рубежом 9 изданий (1971).

Вторая группа работ рекомендуется для более углубленного изучения математических и методических аспектов теории и практики планирования эксперимента. К таковым можно отнести книги В.З. Бродского (1976), A.H. Лисенкова (1979), В.В. Налимова и T.И. Голиковой (1981), В.В. Фeдорова (1971), В.Г. Горского и Ю.П. Адлера (1974) и многие другие. Подробные литературные обзоры и аннотированные указатели представлены Ю.П. Адлером и Ю.В. Грановским (1972), В.П. Шлыковой (1976).

Дальше К следующему разделу Назад К предыдующему разделу Конец К концу разделу Список К оглавлению На главную На главную страницу сайта