Дальше К следующему разделу Конец К концу разделу Список К оглавлению На главную На главную страницу сайта

1.1. МНИМЫЕ ПОВТОРНОСТИ И ПЛАНИРОВАНИЕ ЭКОЛОГИЧЕСКИХ ПОЛЕВЫХ ЭКСПЕРИМЕНТОВ

С. Х. Хелберт

Департамент биологии, Университет в Сан-Диего, Калифорния, 92182 США

Реферат: Псевдорепликация (или использование мнимых повторностей) определена как проверка статистических гипотез при оценке эффекта влияния фактора по экспериментальным данным, когда группы воздействий не могут быть признаны повторными (хотя выборки были сформированы), или эти повторности не являются статистически независимыми. В терминологии дисперсионного анализа (ANOVA) это неверная оценка дисперсии, обусловленной фактором воздействия, которая на самом деле не соответствует проверяемой гипотезе. Анализ 176 статей, посвященных экспериментальным исследованиям и опубликованных после 1960 г., показал, что псевдорепликация имела место в 27% из них, или в 48% всех работ, где применялась проверка гипотез. Мнимые повторности особенно часто встречаются в исследованиях морского бентоса и мелких млекопитающих. Рассмотрены важнейшие особенности активного эксперимента. "Несверхъестественное вмешательство" определено как вмешательство случайных, но объяснимых событий в ход текущего эксперимента. Обсуждается, что обязательной чертой хорошо поставленного эксперимента является перемешивание повторностей относительно выбранных уровней регулируемых параметров, что позволяет учесть как стохастические возмущения, так и возможный градиент сопутствующих нерегулируемых факторов. Только проведя адекватное размещение экспериментальных единиц в пространстве относительно вектора воздействий, можно быть уверенным, особенно в небольших экспериментах, в правильности результата, обходясь без строгих процедур рандомизации. Смысл этого конфликта между перемешиванием повторностей и их рандомизацией определяется различиями между не зависящей от размещения (pre-layout или обычной) и обусловленной размещением (layout-specific) вероятностями a ошибки первого рода. Предлагаются мероприятия, адресованные консультантам-статистикам и редакторам экологических журналов, призванные улучшить понимание экологами существа методов планирования эксперимента и математической статистики.

Ключевые слова: планирование эксперимента; хи-квадрат; Р.А. Фишер; В.С. Госсет; перемешивание воздействий; несверхъестественное вмешательство; рандомизация; повторность; ошибка первого рода (experimental design; chi-square; R.A. Fisher; W.S. Gossett; interspersion of treatments; nondemonic intrusion; randomization; replicability; type I error).

Никто из нас не смеет и мечтать, чтобы, оценивая эффект воздействия, мы могли бы просто сравнить данные двух участков: один – с воздействием, другой – без него.

Р. Фишер и Дж. Вишерт (Fisher, Wishart, 1930)

... Полевые наблюдения в экологии [обычно] или не имеют никакой повторности, или она настолько мала, что это имеет очень низкую чувствительность...

Л. Эберхард (Eberhardt, 1978)

Я не знаю, какой смысл защищать непопулярное начинание, если оно никого не раздражает или никто не считает его малоэффективным.

Бертран Рассел (по Clark, 1976, p. 290)

Введение

Предлагаемый обзор представляет собой критический анализ существующих в экологической практике методов организации и обработки результатов полевых наблюдений. Здесь также затрагиваются фундаментальные основы планирования эксперимента. При этом предполагается: (1) обсудить некоторые традиционные ошибки, когда в результате неверного планирования эксперимента неверно применяются методы прикладной статистики, (2) процитировать большое число работ, иллюстрирующих эти проблемы, (3) предложить некоторые новые термины для концепций, которые сейчас не имеют удобных специальных наименований, (4) подчеркнуть тезис о том, что перемешивание воздействий является обязательной чертой правильно спланированного эксперимента, и (5) предложить пути, посредством которых научное сообщество могло бы быстро улучшить положение дел.

Большая часть книг по планированию эксперимента или статистике либо совсем не касается тех основных положений, о которых я поведу речь, либо касаются их очень кратко. В литературе приводится минимум примеров неправильно поставленных экспериментов и уж совсем мало примеров, представляющих правильно организованную систему наблюдений на уровне популяции, сообщества или экосистемы. Основную массу материала, содержащегося в таких книгах, составляют чисто технические аспекты этой области знаний и математические схемы обработки, что в целом правильно, но отталкивает тех, кто интересуется общими фундаментальными принципами. Я же опускаю здесь математические обсуждения вообще.

Цитирование конкретных исследований имеет большое значение для желательной эффективности настоящей работы. Отказаться от упоминания конкретных отрицательных примеров – значит отказаться от действенного педагогического метода. Имеющиеся обзоры в этом направлении (и мои в том числе) являются чересчур вежливыми и даже извиняющимися, что иллюстрируется следующими цитатами:

“Еще очень много можно сделать в плане улучшения полевого экспериментирования. Но вместо того чтобы критиковать конкретные исследования, я изложу свои взгляды на правильную методику…” (Connell, 1974).

“В этом обзоре автор, как обычно, воздержится от критики планов (или их отсутствия) конкретных исследований, а также неизбежной статистической слабости полученных выводов; достаточно сказать, что большинство исследований имеют недостатки в этом отношении” (Hurlbert, 1975).

“…Возможно, что эти мои заметки покажутся брюзжанием по поводу мелких деталей… Я надеюсь, что авторы процитированных мной в качестве примера работ простят меня. Я искренне восхищаюсь качеством этих работ…” (Hayne, 1978).

“В 151 рассмотренной работе было обнаружено множество сходных проблем… Было бы малопродуктивным и, вероятно, некорректным обсуждать все это по отношению к конкретным работам” (Underwood, 1981).

Поскольку я здесь не скрываюсь за анонимностью и не собираюсь демонстрировать свое восхищение, позвольте сформулировать очевидный факт – качество исследования зависит от большего, нежели хороший экспериментальный план, так что правильное планирование эксперимента само по себе не гарантирует ценности исследования. В этом обзоре не оценивается общее качество обсуждаемых работ. Большинство из них, несмотря на ошибки в планировании и статистике, содержат весьма полезную информацию.

С другой стороны, когда авторы обзоров пытаются подчеркнуть положительные моменты, указывая на конкретные полевые исследования, их выбор иногда представляется не совсем подходящим. Например, Б. Коннел (Connell, 1974) цитирует П. Бодена (Boaden, 1962) как один из лучших примеров управляемого полевого эксперимента; а Р. Чу (Chew, 1978) цитирует Ф. Спитца (Spitz, 1968) как “лучший пример по оценке ущерба фитосистем от действия мелких млекопитающих”. При этом в обоих исследованиях не присутствуют повторности воздействия и потому в них не учитывается влияние стохастического фактора. Ф. Спитц (Spitz, 1968), более того, неверно применяет методы статистики, рассматривая повторные выборки, как будто бы они являлись повторными экспериментальными единицами.

Предлагаемые в настоящем обзоре новые термины были выбраны очень тщательно. Возможно, математики сочтут их неэлегантными, но мне кажется, что эти термины могут быть полезными как экологам, так и другим ученым, имеющим дело с планированием эксперимента. Статистика и планирование эксперимента – это дисциплины с очень бедным словарным запасом. Большая часть этого обзора имеет дело с тем, что статистик может назвать проблемами "рандомизации", "повторностей", "независимости" или "остаточной дисперсии {error term}", но эти понятия могут использоваться в эксперименте в различных смыслах или применяться многими способами в экспериментах разных типов. Например, при планировании эксперимента можно реализовывать повторности на нескольких уровнях (блоки, экспериментальные единицы, выборки, подвыборки и т.д.). Конечно, на многих уровнях повторности могут быть излишними или необязательными, но есть, по крайней мере, один уровень (экспериментальные единицы), на котором повторности обязательны, по крайней мере, если планируется применение критериев значимости. Аналогично термин "ошибка" используется для обозначения множества различных величин и концепций, включая: ошибки первого и второго рода, случайные ошибки и систематические (введенные экспериментатором), изменчивость между повторностями, изменчивость между выборками, несоответствие между µ и x и т.д. Несколько увеличенный словарь, в особенности обеспечивающий названия для различных типов неправильных процедур, мог бы упростить положение дел.

Я начну свое обсуждение с элементарного уровня, предполагая, что читатель прошел хотя бы односеместровый курс прикладной статистики, но не знаком с теорией планирования эксперимента. Такой подход (да и весь обзор в целом) может показаться некоторым экологам слишком элементарным. Но я иду на это, чтобы мои посылки и аргументы были исчерпывающими, простыми и легко атакуемыми, если они неверны. Ведь именно элементарные принципы теории планирования эксперимента (а не продвинутые или эзотерические предположения) наиболее часто и сильно нарушаются экологами.

Экспериментальный подход

Эксперимент включает 5 последовательных стадий: гипотеза, планирование, реализация, статистический анализ и интерпретация. Гипотеза обладает первоочередной важностью, поскольку если она не удовлетворяет некоторым критериям качества, то даже самый правильно проведенный эксперимент будет иметь не слишком большую ценность.

Под планированием эксперимента понимается лишь “логическая структура исследования” (Fisher, 1971, p. 2). Полное описание целей эксперимента должно включать спецификацию природы используемых экспериментальных единиц, число и характер применяемых воздействий (включая "контрольные" воздействия), а также свойства или отклики (параметры экспериментальных единиц), которые предполагается измерять. Когда решение по этим вопросам принято, план эксперимента определяет схему, согласно которой для каждой доступной экспериментальной единицы назначается уровень воздействия. При этом определяется число экспериментальных единиц (повторностей), получающих воздействие каждого уровня, устанавливается физическое расположение экспериментальных единиц, а также частота или временная периодичность, с которой реализуются воздействия и осуществляются измерения контролируемых факторов на различных экспериментальных единицах.

Реализация эксперимента включает весь комплекс процедур и операций, в отношении которых осуществлялось планирование. Успешное осуществление в равной мере зависит от искусства экспериментатора, его проницательности и рассудительности, а также от его технических навыков. Непосредственной задачей исследователя обычно является выполнение технических операций эксперимента таким образом, чтобы избежать систематических ошибок (отклонений) и минимизировать случайные ошибки. Если изучается влияние ДДТ, то препарат не должен содержать примесей иных веществ. Если изучается влияние хищника, охотящегося в приливной зоне, то расположение клеток, блокирующих хищника, не должно иметь прямого влияния на поведение экосистемы, за исключением самого хищника. Если изучается влияние питательных веществ на биомассу планктона в пруду, то отбор проб должен выполняться посредством устройства, производительность которого не зависит от обилия планктона. Систематические ошибки, допущенные как в распределении воздействий, так и в процедурах измерения или отбора проб, делают эксперимент некорректным, а его выводы неубедительными.

Субъективным образом также решается вопрос о том, какова допустимая или желательная изначальная гетерогенность между экспериментальными единицами и в какой степени следует регулировать условия среды в ходе эксперимента. Эти обстоятельства влияют на величину случайных ошибок и потому – на оценку чувствительности изучаемых объектов по отношению к воздействию. Они также влияют на конкретную интерпретацию результатов, хотя сами по себе цели исследования не определяют.

Из изложенного ясно, что планирование эксперимента и особенности его реализации в равной степени определяют обоснованность исследования и его итоги. Хотя в практическом смысле реализация – это более критичный аспект эксперимента, нежели его планирование. Действительно, ошибки при осуществлении эксперимента обычно возникают в большем числе этапов исследования, более многообразны и часто более коварны, чем ошибки при планировании. Следовательно, погрешности реализации обнаружить обычно сложнее, чем просчеты в планировании, как самому экспериментатору, так и читателю его отчетов. Именно эти коварные эффекты ошибок, которые иногда просто невозможно обнаружить, делают этап реализации наиболее ответственным за корректность конечного результата исследования. Однако ошибки процесса реализации эксперимента далее рассматриваться не будут, несмотря на столь важное их значение как источника проблем.

В экспериментальной работе основная функция статистики – увеличить четкость, выразительность и объективность, с которыми результаты представляются и интерпретируются. Статистический анализ и интерпретация – наименее критичные аспекты экспериментирования в том смысле, что если допускаются чисто статистические или интерпретационные ошибки, то данные могут быть проанализированы заново. В то время как единственным абсолютным средством исправления ошибок планирования или реализации является только повторение эксперимента.

Измерительные эксперименты

Можно выделить два класса экспериментов: измерительные {mensurative} и манипулятивные {manipulative}. Измерительные эксперименты включают только проведение наблюдений в одной или нескольких точках пространства или времени; пространство или время – это единственные "экспериментальные" переменные или "факторы воздействия". Оценка значимости воздействия по статистическим критериям осуществляется здесь не всегда. Измерительные эксперименты обычно не включают наложение экспериментатором управляемых внешних факторов на экспериментальные единицы. Если они включают такое наложение (например, сравнение откликов горных и равнинных особей дуба на экспериментальную дефолиацию), то все экспериментальные единицы подвергаются одинаковому "воздействию".

Пример 1. Мы хотим определить, как быстро разлагаются листья клена (Acer) на дне озера на глубине 1 м. Для этого мы делаем 8 маленьких мешков из нейлоновой сетки, наполняем каждый из них кленовыми листьями и помещаем все вместе в какой-то точке 1-метровой изобаты. Через месяц мы вынимаем мешочки, определяем потерю разложившегося органического вещества в каждом и вычисляем среднюю скорость разложения. В таком виде эта процедура удовлетворительна. Однако она не дает информации о том, как скорость может варьировать в разных точках 1-метровой изобаты. Средняя скорость, которую мы вычислили по нашим 8 мешочкам с листьями –слишком скудное основание для обобщения величины "скорости разложения на 1-метровой изобате в озере".

Такая процедура обычно называется экспериментом просто потому, что процедура измерения достаточно трудоемка, и часто включает вмешательство в саму систему. Если бы мы провели 8 измерений температуры или отобрали 8 проб дночерпателем, мало кто назвал бы эти процедуры и их результаты "экспериментальными".

Попытки семантической реформы будут тщетными. Исторически сложилось, что термин "экспериментальное" всегда использовался в контексте значений "сложное", "трудоемкое", "подразумевающее вмешательство {interventionist}", и это неизбежно будет продолжаться. Термин измерительный эксперимент поможет нам держать в уме различие между описанным подходом и манипулятивным экспериментом. Так как в строгом смысле основное различие между ними такое же, как и между выборочным процессом и экспериментированием, изложение "планирования" измерительных экспериментов можно найти в таких книгах, как “Методы выборочного исследования” (Cochran, 1963) или “Выборочный метод в переписях и обследованиях” (Yates, 1960), но не в книгах, в названии которых присутствует слово "планирование".

Сравнительные измерительные эксперименты

Пример 2. Предположим, что мы хотим, используя процедуру примера 1, выяснить, отличается ли скорость разложения кленовых листьев между 1-метровой и 10-метровой изобатами. Для этого мы помещаем 8 мешочков с листьями на 1-метровую изобату и другие 8 мешочков на 10-метровую, ждем месяц, извлекаем мешочки и получаем данные. Затем мы применяем статистический критерий (например, t-критерий или U- критерий), чтобы узнать, имеется ли достоверное различие скорости разложения в двух точках.

Этот опыт можно было бы назвать сравнительным измерительным экспериментом. Хотя нами использовались две изобаты (или два "уровня воздействия"), полноценная проверка научных гипотез, присущих манипулятивным экспериментам, проведена не была. Мы просто измерили свойство системы в двух точках внутри нее и оценили, существует ли реальное различие ("эффект воздействия") между ними.

Чтобы достигнуть не слишком четко сформулированную цель в примере 1, любой тип пространственного размещения 8 мешочков по изобате, в принципе, был бы приемлемым. В примере же 2 мы определили нашу цель как сравнение двух изобат в отношении скорости разложения кленовых листьев. Поэтому мы не можем расположить наши мешочки в одном месте на каждой изобате. Это не даст нам никакой информации об изменчивости скорости разложения от точки к точке вдоль изобаты. Такую информацию необходимо получить, прежде чем обоснованно применять статистический критерий для проверки нулевой гипотезы о том, что скорость разложения одинакова на двух изобатах. Поэтому мы должны рассеять наши мешочки на каждой изобате некоторым подходящим образом. Существует много путей выбора такого размещения. В идеальном случае позиции вдоль каждой изобаты должны выбираться случайно, но мешочки могут быть расположены индивидуально (8 точек), либо группами по две (4 точки) или по четыре (2 точки). Более того, мы можем решить, что достаточно работать с изобатами только вдоль одной стороны озера и т.д.

Размещение повторных выборок или измерений в пространстве (или времени) подходящим образом, соответствующим конкретной проверяемой гипотезе, – наиболее критичный аспект планирования измерительных экспериментов.

Мнимые повторности в измерительных экспериментах

Пример 3. Предположим, что поленившись, мы расположили все 8 мешочков в одном месте на каждой из изобат. В этой ситуации все еще будет корректным применить критерий значимости к полученным данным. Однако (и это центральный момент во всем этом обзоре), если достоверные различия обнаружены, это является свидетельством различий только между двумя точками: "так случилось", что одна из точек лежит на 1-метровой изобате, а вторая – на 10-метровой. Выявленное достоверное различие между ними не может быть корректно интерпретировано как различие между двумя изобатами, т.е. как свидетельство "эффекта воздействия". Такое выявленное достоверное различие не более того различия, которое мы обнаружили бы, поместив два набора по 8 мешочков в двух точках на одной и той же изобате.

Если мы настаиваем на интерпретации проверки гипотезы в примере 3 как "эффекта воздействия" с констатацией реальных различий между изобатами, мы совершаем ошибку, связанную с тем, что я называю мнимой повторностью. Мнимая повторность может быть определена в терминах дисперсионного анализа как проверка эффекта воздействия, основанная на оценке дисперсии {error term}, неадекватной рассматриваемой гипотезе. В примере 3 составляющая ошибки, обусловленная фактором и основанная на 8 мешочках в одной точке, не является адекватной. В целом в измерительных экспериментах мнимые повторности часто являются следствием того, что реальное физическое пространство, из которого формируются выборки (либо в котором проводятся измерения), меньше, либо более ограничено, чем то, которое фигурирует в гипотезе. В манипулятивных экспериментах мнимые повторности проявляются в результате использования статистических методов для проверки гипотезы об эффекте воздействия по данным из экспериментов, в которых либо воздействия вообще не имели повторностей (хотя могло быть несколько выборок), либо эти повторности не были статистически независимы. Таким образом, мнимые повторности относятся не к проблеме планирования эксперимента (или выборочного процесса) как такового, а скорее к определенной комбинации планирования эксперимента (или выборочного процесса) и статистического анализа, который неадекватен для проверки поставленных гипотез.

Явление мнимых повторностей широко распространено в литературе как по измерительным, так и по манипулятивным экспериментам. Оно может появиться во многих обличиях. Оставшаяся часть этого обзора посвящена мнимым повторностям в манипулятивных экспериментах и вопросам, связанным с ними.

Управляемые эксперименты

Подробнее о терминологии

Если в измерительном эксперименте, как правило, изучается единственная ситуация с одним воздействием (пример 1), то управляемый (манипулятивный) эксперимент уже учитывает воздействие на двух или более уровнях фактора и имеет целью осуществление одного или более сравнений. Определяющая черта управляемого эксперимента состоит в том, что различные экспериментальные единицы получают различные уровни воздействия и распределение воздействий по экспериментальным единицам делается случайным (или, по крайней мере, может быть сделано таковым). Обратите внимание, что в примере 2 экспериментальные единицы – это не мешочки с листьями, которые нужно считать просто измерительными инструментами, а 8 физических положений, где эти мешочки были расположены.

Следуя Ф. Энскомбу (Anscombe, 1948), многие статистики используют термин сравнительный эксперимент для обозначения того, что я называю манипулятивным экспериментом, и абсолютный эксперимент – для обозначения того, что я называю измерительным экспериментом. Я чувствую, что терминология Ф. Энскомба вводит в заблуждение. Она скрывает тот факт, что сравнение также является целью многих измерительных экспериментов (см. пример 2).

Д. Кокс (Cox, 1958, р. 92-93) проводит различие между воздействующими факторами и классифицирующими факторами, которое, на первый взгляд, выглядит как аналог различия между измерительными и манипулятивными экспериментами. Однако это не так. Для Д. Кокса "вид" всегда будет классифицирующим фактором, потому что “вид – это внутреннее свойство объекта, а не нечто, привносимое экспериментатором”. Тем не менее "вид", как и множество других классифицирующих факторов, явно может быть действующей переменной, как в измерительных, так и в манипулятивных экспериментах. Тестирование эффекта ингибирования огня на двух типах древесины (см. Cox, 1958, пример 6.3) или сравнение скорости разложения дубовых и кленовых листьев (мой пример 5) представляют собой манипулятивные эксперименты, в которых разновидность материала является действующей переменной, а их планирование заключается в случайном распределении воздействий по экспериментальным единицам (например, по их физическому местоположению в пространстве). Однако, чтобы замерить и сравнить скорости фотосинтеза дуба и клена в естественном лесу, необходимо провести измерительный эксперимент. В этом случае случайный выбор конкретного местоположения двух видов деревьев может оказаться невозможным.

Различие между воздействующими и классифицирующими факторами, подчеркиваемое Д. Коксом (1958), правомерно. Но поскольку оно не совпадает с дихотомией, встречающейся в практике планирования эксперимента и статистических процедурах, оно менее четко по сравнению с предлагаемой здесь классификацией на измерительные и манипулятивные эксперименты.

Критически важные черты управляемых экспериментов

Манипулятивное экспериментирование сталкивается с несколькими классами потенциальных проблем. В табл. 1 они обозначены как “источники недоразумений”: эксперимент успешен в той степени, в которой его результаты не дискредитированы этими факторами. В задачу планирования эксперимента входит минимизация воздействия факторов из источников, пронумерованных от 1 до 6. Для каждого потенциального источника приведены один или несколько способов планирования эксперимента, которые ответственны за эту минимизацию. Большинство таких способов обязательно. Улучшения на этапе выполнения эксперимента могут еще более уменьшить эти источники ошибок. Однако такие улучшения не могут заменить обязательные составляющие плана эксперимента: контроль, повторность, рандомизацию, перемешивание {interspersion}.

Всегда можно предположить, что некоторые источники некорректности в конкретном случае не важны, и соответствующим образом упростить план эксперимента и его процедур. Это сэкономит значительный объем работы. Однако сущность управляемого эксперимента в том, что правомерность его заключений не зависит от соответствия таких предположений объективной реальности.

От последнего источника некорректности в списке табл. 1 план эксперимента не может быть защищен. Значение сверхъестественного и несверхъестественного вмешательства будет кратко пояснено ниже.

Таблица 1

Потенциальные источники некорректностей в эксперименте и средства минимизации их влияния

Источник некорректности

Черты плана эксперимента, снижающие или исключающие некорректность

1

Изменения во времени

Контрольные измерения

2

Влияние процедур реализации эксперимента

Контрольные измерения

3

Отклонения, вносимые экспериментатором

Случайное соотнесение уровней воздействия экспериментальным единицам
Рандомизация при проведении всех процедур
"Слепой" тест*

4

Изменчивость, вносимая экспериментатором (случайные ошибки)

Повторности воздействий

5

Исходная внутренняя изменчивость экспериментальных единиц

Повторности воздействий
Перемешивание воздействий
Сопутствующие наблюдения

6

Несверхъестественное вмешательство**

Повторности воздействий
Перемешивание воздействий

7

Сверхъестественное вмешательство

Постоянная бдительность, экзорцизм, жертвоприношения и т.д.

* Обычно применяется, когда измерения несут существенный субъективный элемент

** Несверхъестественное вмешательство определяется как вмешательство случайных событий в текущий эксперимент.

"Контроль" – это еще один неудачный термин, имеющий несколько значений даже в контексте планирования эксперимента. В табл. 1 он употребляется в наиболее традиционном значении, т.е. как любая выборка измерений, с которой сравниваются другие выборки, получившие воздействие. Контрольным воздействием может быть как нижний или нулевой уровень фактора {untreated treatment}, изучаемого в эксперименте, так и "процедурное" воздействие (например, мыши с введенным солевым раствором используются в качестве контроля по отношению к мышам с введенным солевым раствором и лекарственным препаратом), или просто иное воздействие.

По крайней мере, при экспериментировании с биологическими системами контроль необходим, в первую очередь, вследствие того, что биологические системы меняются со временем. Если бы мы могли быть абсолютно уверены, что данная система обладает постоянными свойствами, тогда не было бы необходимости в отдельной контрольной группе. Измерения на экспериментальной единице до воздействия могли бы служить тогда контролем для измерений на экспериментальной единице после воздействия.

Во многих типах экспериментов контрольные измерения имеют вторую функцию: выделить влияние эффекта в числе прочих различных аспектов экспериментальной процедуры. Так, в примере с мышами воздействие "только солевым раствором" представляется обязательным контролем. При некоторых обстоятельствах могут быть полезными дополнительные контрольные воздействия, такие как "только введение иглы" или "отсутствие манипуляций".

Более широкое и, возможно, более полезное (хотя и менее традиционное) определение "контроля" включает все обязательные атрибуты плана, приведенные рядом с "источниками недоразумений" под номерами 1 - 6 (табл. 1). "Контроль" в строгом смысле отслеживает дрейф во времени и влияние технических процедур реализации эксперимента. Рандомизация компенсирует (т.е. снижает или исключает) потенциальные отклонения, вносимые экспериментатором при назначении воздействий экспериментальным единицам и при осуществлении других процедурных действий. Повторности учитывают стохастический фактор, т.е. внутреннюю изменчивость выборок, присущую экспериментальному материалу или внесенную экспериментатором, либо возникшую вследствие несверхъестественного вмешательства. Перемешивание {interspersion} компенсирует регулярную пространственную неоднородность свойств среды, куда помещаются экспериментальные единицы, обусловленную как ее исходным состоянием, так и возможным несверхъестественным вмешательством.

В этом контексте представляется точным утверждение о том, что эксперимент без повторностей – это эксперимент без контроля, поскольку он не учитывает стохастический фактор. Однако обычай разделять повторность и контроль как отдельные аспекты плана эксперимента настолько прочно утвердился, что термин "контроль" будет далее использоваться только в узком традиционном смысле.

Третье значение контроля в экспериментальном контексте состоит в регуляции условий, в которых проводится эксперимент. Это может относиться к гомогенности экспериментальных единиц, к точности конкретных процедур воздействия, или, что наиболее часто, к учету неоднородности физической среды, в которой проводится эксперимент. Так, некоторые исследователи могут говорить об эксперименте, поставленном на инбредных белых мышах в лаборатории при температуре 25±1ºC, как о "лучше контролируемом" по сравнению с экспериментом, поставленном на диких мышах в поле, где температура меняется от 15º до 30º. Это неудачное выражение, потому что "чистота" контрольных воздействий в эксперименте не зависит от той степени, с которой физические условия среды ограничиваются или регулируются. От такой регуляции также не зависят ни обоснованность эксперимента, ни результаты статистического анализа; если нет ошибок в плане или статистическом анализе, то доверие, с которым мы можем отбросить нуль-гипотезу, отражается исключительно значением р-вероятности. Эти факты мало понимаются многими лабораторными учеными.

Неверный смысл, который вкладывается в понятие контроль, частично происходит от ошибочного толкования древней максимы: “Сохраняй постоянными все переменные, за исключением той, которая подлежит изучению”. Она относится не к временной стабильности, которая, в общем, не имеет значения, а только к желательной идентичности экспериментальных и контрольных систем во всех отношениях, за исключением воздействующей переменной и производимой ею эффекта.

Повторности, рандомизация и независимость. Как повторности, так и рандомизация имеют две функции в эксперименте: они улучшают оценку базовых статистик и повышают обоснованность применения статистических критериев. В табл. 1 подразумевается их роль в оценке статистических параметров выборок. Повторности снижают эффекты "шума" (т.е. случайной изменчивости или ошибки), увеличивая, таким образом, точность {precision} оценки, например, выборочного среднего или различий между двумя выборками. Рандомизация компенсирует возможные возмущения, вносимые экспериментатором, увеличивая правильность {accuracy} оценок.

В отношении статистических критериев “главная цель [повторностей], которой нельзя достигнуть альтернативным методом, – обеспечить оценку ошибки [т.е. изменчивости], посредством которой решается вопрос о значимости в таких сравнениях... [а] цель рандомизации... – гарантировать обоснованность критерия значимости, а этот критерий основан на оценке ошибки, которую позволяют рассчитать повторности” (Fisher, 1971, р. 63-64).

Каким именно путем рандомизированное распределение уровней воздействий по экспериментальным единицам обеспечивает обоснованность эксперимента? Четкий и краткий ответ встречается нечасто. Рандомизация гарантирует “гораздо больше, чем просто отсутствие отклонений в эксперименте” (Fisher, 1971, р. 43), хотя и это важно. Она гарантирует, что в среднем "ошибки" распределены независимо и что “пары участков с одинаковым воздействием расположены не ближе друг к другу, или, наоборот, дальше, или еще каким-либо разумным образом не отличимы* от любой другой пары участков с различным воздействием”, за единственным исключением эффекта самого воздействия (Fisher 1926, р. 506). [*В парафразе этого утверждения Дж. Бокс (Box, 1978, р. 146) вставляет в этом месте очень важное уточнение “в среднем”.]

В терминах математической статистики отсутствие независимости ошибок препятствует выяснению α-вероятности ошибки первого рода. Действуя в соответствии с процедурой проверки статистических гипотез, мы можем, например, задаться критическим уровнем значимости αкр = 0.05 и искать соответствующее значение р-вероятности для подходящей тест-статистики. Однако, если ошибки не независимы, истинный уровень значимости будет выше или ниже 0.05, но в любом случае численное его значение останется неизвестным. Таким образом, интерпретация статистического анализа становится достаточно субъективной.

Сверхъестественное и несверхъестественное вмешательство. Если бы вы работали в области, населенной нечистой силой, у вас были бы проблемы независимо от совершенства вашего экспериментального плана. Если демон решает "учинить что-либо" над каждой экспериментальной единицей с воздействием A, но оставить в покое единицы с воздействием B, причем его визит останется незамеченным, то результаты будут неверными. Можно также классифицировать некоторые ошибки или выбросы измерений как следствия сверхъестественного вмешательства. Например, если хищническое влияние лис изучается на огороженных и неогороженных полях, ястребы могут быть привлечены столбами ограждения, которые они могут использовать как насесты, с которых осуществляется поиск добычи. Позднее воздействие ястребов на огороженные поля может внести отклонение в результаты эксперимента. Считать ли такое зловредное вмешательство сверхъестественным или просто приписать проблему отсутствию прозорливости экспериментатора или несовершенству процедур эксперимента – вопрос субъективный. Решение будет зависеть от того, убеждены ли мы в том, что достаточно внимательный экспериментатор должен предвидеть такое вмешательство и предпринять меры по его устранению.

Под несверхъестественным вмешательством понимается вмешательство случайных событий в текущий эксперимент. Этот тип вмешательства встречается в любой экспериментальной работе, внося "шум" в данные. Чаще всего влияние единичного стохастического возмущения неизмеримо мало. Однако по определению, природа, величина и частота таких случайных событий непредсказуемы, так же как и их следствия. Если возмущение оказывает воздействие на все экспериментальные единицы независимо от уровня воздействия, то проблемы нет. Любое изменение погоды во время полевого эксперимента будет примером такого "случайного" события. Больше проблем несут случайные события, влияющие на одну или несколько экспериментальных единиц. Экспериментальное животное может умереть, может случиться инфекция или сбой в обогревательной системе. Некоторые случайные события могут быть обнаружены, но таковых – не большинство. Экспериментаторы обычно стремятся минимизировать появление случайных событий, потому что они снижают чувствительность эксперимента в обнаружении эффекта воздействия. Однако не менее важно минимизировать вероятность ошибочного заключения о присутствии эффекта воздействия, когда его нет. Повторности и перемешивание воздействий обеспечивают лучшую страховку от случайных событий, имитирующих такие фальшивые эффекты воздействия (табл. 1).

Распределение воздействий

В соответствии с самой природой измерительного эксперимента каждая пара (экспериментальная единица + оказываемое на нее воздействие) обычно изучается изолированно в пространстве и/или во времени. В более сложном управляемом эксперименте появляется задача выбрать такое размещение экспериментальных единиц друг относительно друга в пространстве, чтобы характер такого размещения не вносил бы дополнительной систематической ошибки. Этот критерий распределения/изоляции составляет основное содержательное различие между двумя типами эксперимента.

В большинстве видов управляемых экспериментов адекватное размещение воздействий в пространстве реализуется более или менее автоматически в соответствии с процедурами рандомизации, когда экспериментальные единицы случайным образом связываются с уровнями варьирования исследуемых факторов. В то же время "перемешивание" {interspersion} изучаемых воздействий представляет собой более общее понятие, чем рандомизация {randomization}, которая является просто способом соотнесения экспериментальных единиц с комбинациями уровней факторов, устраняющим возможность случайных искажений результатов эксперимента и доставляющим точную спецификацию вероятности ошибки первого рода. Кроме того, для предварительной оценки адекватности планов эксперимента "перемешивание" более практичный критерий, чем рандомизация. Первый предлагает принципиальную схему физического распределения экспериментальных единиц в пространстве, тогда как второй ссылается только на сам процесс.

Пример 4. Возвратимся к нашей изобате на глубине 1 м, чтобы проверить, будут ли листья дуба (Quercus) разлагаться быстрее, чем листья клена (Acer) на той же глубине. Это будет уже управляемым экспериментом, хотя технические операции будут подобны таковым из ранее описанного измерительного эксперимента (примеры 2 и 3). Теперь мы фактически изменяем единственную переменную (вид листьев), а не просто сравниваем свойство системы в двух точках в пространстве или во времени.

Поместим случайным образом 8 мешочков с листьями клена в пределах 0.5 м2 участка (A) на 1-метровой изобате и также наугад 8 мешочков с листьями дуба в пределах второго "идентичного" участка (B), смежного с первым. Поскольку экспериментальные единицы с разным уровнем воздействия не перемешаны, это – не очень интересный эксперимент. Единственная гипотеза, проверяемая им, состоит в том, что листья клена в точке А разлагаются с иной скоростью, чем это делают листья дуба в точке B. Предполагаемая "идентичность" двух участков почти наверняка не существует, а эксперимент не предполагает возможности, что начальные различия между двумя участками (по-видимому, небольшие) будут иметь влияние на скорость разложения. И при этом не контролируется возможность "несверхъестественного вмешательства", т.е. возможность того, что неуправляемый внешний фактор или случайное событие в течение эксперимента могут увеличить несходство двух участков.

Пример 5. Используем 8 мешочков для каждой разновидности листьев и распределим их все случайным образом в пределах одного и того же участка на 1-метровой изобате. Этот эксперимент позволит нам корректно проверить, разлагаются ли две разновидности листьев с одной и той же скоростью в этом месте. Если нас интересует прежде всего сравнение двух видов листьев, то описанный эксперимент вполне достаточен для этого. Однако если нам важно сравнить скорость разложения двух видов листьев именно на 1-метровой глубине, то мы должны выполнить эксперимент, в котором оба множества листьев рассеяны случайным образом в двух или более наугад отобранных точках 1-метровой изобаты. Кроме того, если мы желаем сделать вывод об 1-метровой изобате определенного класса озер, то очевидно, что два множества листовых мешочков должны быть распределены некоторым рандомизированным способом по всем или по случайной выборке этих озер. Соответствующее рассеяние повторностей одинаково важно и в управляемом, и в измерительном экспериментах.

Способы пространственного размещения и изоляции

Схема на рис. 1 иллюстрирует три корректных и четыре некорректных способа пространственного размещения экспериментальных единиц, к которым применены два типа воздействия. Отметим, что вариант В-4 эквивалентен варианту А-1 по способу перемешивания, поэтому неприемлемых вариантов всего 4, а не 5. Квадраты, или экспериментальные единицы, могут быть и аквариумами на лабораторном столе, и последовательностью водоемов, и рядом делянок, и областями в приливно-отливной зоне с действительными (структурными) или воображаемыми границами. Предполагается, что каждая экспериментальная единица подвергалась воздействию (заселение рыбой, обработка инсектицидом, удаление морских звезд) независимо от других единиц с тем же типом воздействия. Приведем теперь несколько комментариев относительно каждого типа плана размещения, иллюстрированного рис. 1.

 

ТИП ПЛАНА РАЗМЕЩЕНИЯ

СХЕМА

А-1

Полностью рандомизированная схема

А-2

Блочная рандомизированная схема

А-3

Систематическая схема

В-1

Простое разделение

В-2

Групповое разделение

В-3

Изолированное размещение

В-4

Физически связанные повторности

В-5

Отсутствие повторностей

Рис. 1. Схематическое представление различных корректных способов (A) размещения экспериментальных единиц (обозначены квадратами) в условиях двух типов воздействия (заштрихованный, незаштрихованный) и различные способы (B), в которых может быть нарушен принцип перемешивания

Полностью рандомизированная схема (completely randomized design; А-1). Простейшая рандомизация – наиболее последовательный способ соотнесения воздействий с экспериментальными единицами. Этот способ в полевых исследованиях применяется относительно редко, особенно когда экспериментальные единицы достаточно велики (озера, поля, выделы площадью более 1 га).

В подобных случаях исследователю обычно доступны для обработки только несколько экспериментальных единиц и уже четырехкратные повторности являются необычными. С учетом этого обстоятельства при полной рандомизации есть большая вероятность создать изолированный, а не перемешанный план размещения. Например, использование таблицы случайных чисел позволяет нам подсчитать, что для 8 площадок вероятность случайного выпадения варианта В-1 составляет около 3%; для 6 площадок – около 10%; для 4 площадок – 50%. Я настоятельно не соглашаюсь с предположением (Cochran, Cox, 1957, р. 96; Cox, 1958, р. 71), что “полностью рандомизированный вариант может быть самым эффективным в небольших экспериментах”. Ясно, что мы не можем рассчитывать на рандомизацию, всегда дающую нам перемешивание, столь же "хорошее", как A-1 (рис. 1).

В экологической литературе найдено несколько примеров строгой рандомизации, приводящей в итоге к неадекватному распределению экспериментальных единиц. Возможно, экологи-экспериментаторы относятся к двум группам: те, кто не видит потребности в каком бы то ни было перемешивании, и те, кто действительно осознает его значимость и предпринимает любые меры, чтобы достигнуть ее максимального уровня. На рис. 2 показаны три фактических размещения экспериментальных единиц, в которых степень перемешивания кажется неудовлетворительной.

Рис. 2. Три размещения экспериментальных единиц, показывающие частичное, но неадекватное перемешивание: (I) сравнение степени хищничества на мужских (M) и женских (F) цветках, помещенных в лесной опад (Cox, 1981, 1982); (II) испытание влияния на распространение семян удаления из неогороженных участков поля одного (S, R), обоих (SR), или ни одного (C) из двух видов грызунов (Joule, Cameron, 1975); (III) изучение влияния на водоросли удаления их потребителей (R) (Slocum, 1980); штриховкой отображается неиспользованная область исследования

Рисунок 2-I – единственный найденный мной пример плохого перемешивания, следующий из ясно определенных и формально правильных процедур рандомизации. Но даже в этом случае некорректна конфигурация только одного блока в рандомизированной полной блочной конструкции с четырьмя блоками. Для других двух примеров (рис. 2-II, 2-III) авторы не указывают, какие процедуры или критерии они использовали в назначении опытных участков под определенные воздействия. Так или иначе, маловероятно, чтобы настолько изолированные схемы размещения были произведены путем рандомизации. Потенциал для ошибок, обусловленных неучтенной исходной внутренней неоднородностью выборок (или "несверхъестественным" вмешательством) и способных оказать искажающее влияние на результаты эксперимента, был высок во всех трех случаях.

Рандомизированная блочная схема (randomized block design; А-2). Этот способ дает хорошие результаты и часто используется в полевых экспериментах. В приведенном на рис. 1 примере 8 площадок разбиты на 4 блока, а в пределах каждого блока воздействия распределены случайным образом. Как и другие способы "ограниченной рандомизации", рандомизированная блочная схема уменьшает упомянутую вероятность случайной изоляции групп воздействий. Иными словами, рандомизированное распределение по группам или любая другая процедура, которая гарантирует перемешивание, всегда очень желательны как страхование от несверхъестественного вмешательства. Это, однако, не должно быть расценено только как метод распределения повторностей в пространстве, когда некоторый градиент исходной неоднородности в свойствах экспериментальных единиц известен или, как подозревается, существует.

У этой схемы есть одно неудобство – ограниченная применимость непараметрических методов статистики. Для того чтобы доказать для плана A-2 достоверность различий (при р = 0.05) с использованием критерия Вилкоксона, в принципе, необходима, как минимум, шестикратная повторность, в то время как в схеме А-1 тест Манна-Уитни применим уже при наличии четырех повторностей. Однако, вероятно, нет ничего неверного (по крайней мере, в практическом смысле) в применении U-критерия Манна-Уитни к экспериментальным данным по схеме A-2. Такой расчет не должен увеличить случаи некорректной оценки эффекта воздействия (в частности, оценки вероятности ошибки первого рода), а это, как нам представляется, – лучший и единственный критерий того, чтобы подтвердить справедливость такого гибридного подхода.

Систематическая схема (А-3) позволяет достичь очень регулярного перемешивания повторностей, однако всегда остается вероятность того, что расстояние между площадками совпадет с некоторым периодическим изменением окружающей среды. Хотя этот риск является очень небольшим в большинстве полевых экспериментов, его всe же следует принимать во внимание.

Пример, где систематическое размещение оказалось определенно предпочтительнее рандомизированного, касается результатов эксперимента на пастбищах фламинго при различном обилии озерного микробентоса (Hurlbert, Chang, 1983). Четыре огораживания были установлены в линейном порядке с равным интервалом между ними, а 10 областей контроля были вкраплены систематически среди и вокруг них. Мы объясняли такую схему тем, что фламинго могли пугаться заборов огораживания, поскольку изменчивость расстояния между загородками приведет к еще большей изменчивости областей контроля при их использовании фламинго. В нашем статистическом анализе мы использовали процедуру Манна-Уитни (по U-критерию), строго подходящую только для полностью рандомизированного размещения.

В блочной рандомизированной (В-2) и систематической (В-3) схемах при соотнесении площадок с экспериментальными воздействиями можно ориентироваться не только на пространственное размещение площадок, но и на некоторые их особенности, существовавшие до начала эксперимента. Например, при проведении исследования, связанного с почвенными клещами, мы можем ранжировать экспериментальные участки по заранее измеренной общей плотности клещей и назначить один тип воздействия участкам с четными номерами и другой – участкам с нечетными. В этом примере было бы более корректно использовать средние значения исходной плотности клещей, основанные на двух или более предварительно сделанных выборках.

Опасность процесса размещения по внутренним свойствам объектов без учета пространственного фактора состоит в том, что мы рискуем получить в итоге сгруппированное распределение площадок (например, B-l). На такую же опасность мы указывали при обсуждении полностью рандомизированной схемы, однако, следует отметить, что этот риск уменьшается с ростом числа повторностей.

Комбинированный или гибридный подход состоит в том, что принимается во внимание как расположение экспериментальных единиц, так и их состояние до эксперимента, а назначение воздействий осуществляется в значительной степени субъективно. Задачей исследователя становится выбор такого варианта, при котором достигаются как наилучшее перемешивание, так и наименьшее различие в свойствах объектов, к которым будут применены различные воздействия. Мы использовали такой подход в исследованиях эффекта воздействия инсектицида (Hurlbert et al., 1972) и откорма рыб на популяциях планктонных организмов (Hurlbert, Mulla, 1981). В последнем эксперименте было первоначально три уровня воздействия (0, 50 и 450 рыб на водоем), ограниченная и неравная повторность (5, 4 и 3 водоема на каждый уровень воздействия), а также отмечена исходная неоднородность водоемов. Неравная повторяемость была вызвана нашим представлением о том, что конечная плотность планктонных популяций среди совокупности водоемов будет обратно пропорционально связана с численностью рыб. При малом числе объектов и большой их изменчивости комбинированный подход становится не только предпочтительным, но часто и единственно возможным.

Простое и групповое разделение (simple and clumped segregation; В-1, В-2). В полевых в экологических экспериментах такие типы распределения повторностей достаточно редки. Можно привести три примера таких работ (Vossbrinck et al., 1979; Rausher, Feeny, 1980; Warwick et al., 1982). По-видимому, подавляющее большинство исследователей, достаточно проницательных, чтобы видеть потребность в физически независимых выборках, также интуитивно чувствуют и необходимость перемешивания воздействий. Напротив, в лабораторных экспериментах групповое распределение встречается весьма часто.

Опасность группировки повторностей любого вида состоит в том, что она повышает вероятность неверного обнаружения различий между сравниваемыми воздействиями (т.е. к ошибке первого рода). Такой исход может быть следствием двух причин, влияющих вместе или по отдельности. Во-первых, нами могут быть не замечены существующие до начала эксперимента различия между "физическими местоположениями", в которых размещены единицы с одним типом воздействия. В теории эти различия могли быть измерены, но это требует и усилий, и знания того, что конкретно измерять. Во-вторых, в результате несверхъестественного влияния, случайно обусловленные различия между "физическими местоположениями" могут возникнуть или стать больше во время эксперимента независимо от любого истинного эффекта воздействия.

Пример 6. Для оценки влияния ДДТ на планктон расположим в ряд на лабораторном столе 8 одинаковых аквариумов, наполним их водой с планктоном (из некой исходной емкости) и внесем ДДТ в 4 левых аквариума (схема B-1), используя 4 правых для контроля. Относительно легко установить идентичные начальные условия, такие как освещенность, температура и проч., которые были бы одинаковы для всех аквариумов.

В таком эксперименте наиболее вероятный источник некорректных результатов – некоторые стохастические или предопределенные события, которые происходят после того, как смонтированы экспериментальные системы и начат опыт. Например, лампочка в одном конце стола может утратить степень освещенности, производя легкий градиент вдоль ряда аквариумов, не замечаемый нами. И это может оказать влияние на результат опыта. Или лампочка вообще может погаснуть, и это обнаруживается лишь 48 часами позже. Если мы отнесемся к этому с должной проницательностью, то мы заменим лампочку, отбросим результаты целого эксперимента, и начнем все сначала с надеждой на удачу. Иначе некорректный результат очень вероятен.

Пример 7. Другая ситуация: кто-то оставляет открытую бутылку формальдегида в одном конце стола в течение всего дня, создавая градиент паров формальдегида вдоль ряда аквариумов. В результате мы не без удивления констатируем стимулирующее воздействие ДДТ на фотосинтез фитопланктона, и скрытой причиной этому – факт, что бутылку формальдегида оставили около "контрольного" конца стола!

В этом примере, как и во многих других лабораторных опытах, само по себе перемешивание воздействий не очень необходимо как средство выравнивания условий внешней среды, в которых находятся экспериментальные единицы с разным воздействием. Однако перемешивание действительно важно как средство компенсации несверхъестественных влияний или дифференцирующего вмешательства случайных событий в ход эксперимента. Если бы все аквариумы, контрольные и с внесенным ДДТ, были бы разумно перемешаны, то погасшая лампочка или градиент формальдегида не оказали никакого влияния на оценку различий в отклике на уровень воздействия (или это влияние было бы небольшим). В такой ситуации были бы устранено некорректное смещение результатов обработки, хотя, вероятно, заметно бы увеличилась дисперсия измерений среди аквариумов в каждой выборке и обнаружение любого истинного эффекта воздействия стало бы более затруднительным.

Пример 8. Обратимся вновь к нашему эксперименту по оценке влияния ДДТ на популяции планктона. На этот раз проведем его в экспериментальных водоемах с повторностями, также организованными простым групповым способом (B-l). Здесь, как во многих других экспериментах в натурных условиях, сегрегация создает двойную опасность. Такой эксперимент нельзя отрегулировать, чтобы скомпенсировать возможно существующие изначально локальные неоднородности (например, градиент плодородия почвы) или возможность локального дрейфа условий, возникшего во время эксперимента (например, если один конец ряда водоемов ближе к лесу, то водоемы на этом конце могут быть более активно использованы для размножения амфибий; водоемы, открытые ветру, получают большее количество разного рода обломков во время бури, чем водоемы, защищенные от ветра).

Изолированное размещение (isolative segregation; В-3) типично для лабораторных экспериментов, однако крайне редко встречается в полевых исследованиях. Здесь налицо все опасности простой сегрегации, но в значительно более экстремальной форме, и некорректные результаты обработки можно ожидать с намного большей вероятностью. Например, при изучении эффектов температуры обычно используют камеры с контролируемым микроклиматом, камеры роста или инкубаторы. Они дороги, их число ограничено, и они часто одновременно используются для выполнения многих работ. Хотя можно было бы предположить, что две такие камеры являются идентичными за исключением одного воздействующего параметра (например, температура в одной камере 10°C, а в другой – 25°С), они фактически обычно отличаются по многим другим характеристикам (освещение, летучее органическое вещество и т.д.), несмотря на все усилия это предотвратить.

При исследовании динамики роста или физиологии рыб для каждого уровня изучаемого фактора (температура, пищевой рацион и т.д.) часто используют один единственный экспериментальной резервуар, где содержат фиксированное число рыб. Если индивидуальные рыбы – объекты нашего прямого интереса, то такой эксперимент может быть рассмотрен как иллюстрация схемы изолированного разделения (схема В- 3). Если в качестве экспериментальных единиц мы будем рассматривать резервуары как объекты непосредственного управления, то такие эксперименты могут быть рассмотрены как полное отсутствие повторностей (схема B-5).

Очевидно, что при изолированном разделении резко возрастает вероятность получения некоторого эффекта в результате случайных событий, подобных случайному пролитию формальдегида. В примере 7 неверный результат опыта требует несколько невероятного обстоятельства, в частности, отмеченный градиент концентрации формальдегида должен сохраняться в воздухе вдоль ряда аквариумов в течение эффективно длительного периода времени, несмотря на нормальную воздушную циркуляцию в комнате. Однако в наших новых примерах даже небольшое пролитие формальдегида на полу одной климатической камеры или в одном садке для рыбы гарантирует дифференциальное искажение оценки изучаемого воздействия из-за этого постороннего возмущения. Кроме того, повторности с эффектом загрязнения получат более однородную дозу загрязнителя, чем выборки в примере 7. Это впоследствие увеличит вероятность некорректного результата статистической обработки, поскольку дисперсия, обусловленная фактором, скорее всего, будет занижена.

Физически связанные повторности (physically interdependent replicates; В-4). До сих пор мы обсуждали размещение повторностей в пространстве как способ достигнуть и утвердить статистическую независимость выборок. Однако такое перемешивание не всегда оказывается достаточным. Например, если 4 аквариума имеют общую систему подогрева и аэрации, их пространственное перераспределение (рис. 1, вариант В-4) ничуть не улучшит план эксперимента по сравнению с изолирующим разделением (В-3), поскольку любое случайное событие затронет все 4 сосуда, вызвав появление различий между опытом и контролем. Следовательно, в подобных опытах каждая экспериментальная единица должна иметь независимую систему жизнеобеспечения. Тогда случайная техническая неудача, выброс загрязнения или другой вид несверхъестественного вмешательства затронет только единственную экспериментальную единицу и вряд ли окажет влияние на оценку эффекта воздействия. Такой же удовлетворительный результат может быть получен, когда все экспериментальные единицы, включая все уровни воздействий, присоединены к единой системе обслуживания.

Рандомизация против перемешивания

Из сказанного выше следует, что часто имеется конфликт между традицией использования процедур рандомизации и желательностью перемешивания повторностей. Процедуры рандомизации иногда формируют выборки из объектов с одним и тем же уровнем воздействия, особенно когда количество повторений невелико и используется полностью случайный алгоритм распределения. Стандартные планы (рандомизированные блоки, латинские квадраты и др.), использующие ограниченную рандомизацию, снижают вероятность выбора чрезвычайно сегрегированных расположений, но все равно оставляют возможность выбора планов, неприемлемых для вдумчивых экспериментаторов (рис. 3).

Д. Кокс (Cox, 1958, р. 85-90) обсуждает три возможных решения этой проблемы. Из них самым простым и наиболее полезным является второй: отбрасывайте сильно сгруппированные варианты расположения и выполняйте "повторную рандомизацию" до тех пор, пока не получите распределение с приемлемой степенью перемешивания. Идеально, если критерии качества размещения определены заранее.

Рис. 3. Примеры распределения выборок из четырех экспериментальных единиц каждая, по четырем группам воздействия; использованы следующие процедуры ограниченной рандомизации: (I) схема рандомизированных блоков, (II) расчет латинского квадрата

Эта процедура приводит к планам, которые, в среднем, лучше перемешаны (систематическим или сбалансированным), чем полученные в соответствии со строгими процедурами рандомизации. Но этот метод также лишает нас знания точного значения a (вероятности ошибки первого рода), и поэтому такое решение было бы неприемлемо для Р. Фишера. Для него строгая спецификация a являлась непременным условием доброкачественного плана эксперимента. Его непримиримое неприятие любых отклонений от процедуры строгой рандомизации и, особенно, систематических планов (Barbacki, Fisher, 1936; Fisher, 1971, p. 64-65, 76-80) стало аксиомой, получившей распространение среди его последователей и установившей тон литературы по этой теме. Такое утверждение не является полностью обоснованным и, в частности, систематическое или какое-либо иное перемешивание заслуживает большего внимания, чем ему придавал Р. Фишер.

Историческая ретроспектива. Чтобы понять позицию Р. Фишера и ее следствия, история столь же важна, как и математика. Понятие рандомизации было “большим вкладом Фишера в научный метод” (Kempthorne, 1952, р. 121), и он это знал. В то же время В. Госсет (Стьюдент), его наставник, друг и другой гигант в истории статистики, никогда полностью не принимал аргументы Р. Фишера в пользу строгой рандомизации. Более того, В. Госсет утверждал, что систематические планы размещения предпочтительнее. Они на протяжении 13 лет время от времени переписывались по этому вопросу и публично обсуждали его в Королевском Статистическом Обществе (Gossett, 1936). В. Госсет до конца “отстаивал свое мнение в споре с Р. Фишером и оставлял его кипящим от гнева” (Box, 1978, р. 269). Последствия этого гнева проявились, я думаю, в трудах Р. Фишера. Он, несомненно, нисколько не сомневался в правильности собственных идей, однако чувствовал необходимость защищаться не только от позиции В. Госсета, но также и от большого количества ведущих сельскохозяйственных экспериментаторов, которые были склонны использовать систематические планы.

Самая четкая защита систематических размещений была сделана В. Госсетом в течение последнего года жизни, и его основные аргументы (Gossett, 1937, р. 363-367), опубликованные после его смерти, кажутся неопровержимыми. Ф. Йетс (Yates, 1939) подробно комментировал эту работу в умеренном тоне, признавая справедливыми ряд положений В. Госсета, но в целом, оставаясь на позициях Р. Фишера. Последний никогда в полной мере не отвечал на эту статью, за исключением комментария о том, что отказ В. Госсета “признать необходимость рандомизации... был, возможно, только знаком лояльности к коллегам, работа которых была в этом отношении открыта для критики” (Fisher, 1939, p. 7).

К огромному сожалению В. Госсет не успел при жизни разрешить это противоречие, а после его смерти некому было поддержать его флаг в этой дискуссии. Если бы он и Р. Фишер были в состоянии сосредоточиться вместе на основных принципах (многие из их аргументов касались специфического сельскохозяйственного метода, называемого "методом полубороздовой полосы"), то между ними, возможно, было бы найдено больше точек соприкосновения. Но тогда, вероятно, было бы неизбежным, чтобы представления Р. Фишера о систематических или сбалансированных планах возобладали. Р. Фишер не только переживший В. Госсета на четверть века, но и гораздо более издававшийся (более 300 статей, плюс 7 книг, против 22 статей В. Госсета), имел огромный авторитет как учитель, консультант и советник сельскохозяйственных школ и многих ученых во всем мире. Положение В. Госсета, как статистика и технолога пивоваренных заводов Guinness, было намного более скромным.

Нет никакого сомнения в том, что Р. Фишер осознавал значимость перемешивания, для того чтобы минимизировать отклонения и опасность получения некорректных результатов (см.: Fisher, 1926, р. 506; 1971, р. 43). Почти вся его работа по планированию эксперимента была сосредоточена на методах, использующих ограниченную рандомизацию, которые не только гарантировали бы некоторую степень перемешивания, но и часто увеличивали чувствительность эксперимента по обнаружению эффекта воздействия. Р. Фишер отличался от В. Госсета прежде всего в мнении, что перемешивание является вторичным и никогда не должно быть самоцелью в ущерб точному знанию a. Чтобы обсудить это противоречие далее, мы должны задаться вопросом, насколько важно знать величину a точно. Если мы действительно знаем ее, то что мы реально знаем? Если мы пожертвуем этим знанием, от чего мы реально откажемся?

Не зависящая от размещения (pre-layout) и обусловленная размещением (layout-specific) вероятности a. Ясность появляется, когда будет достигнуто понимание отличия двух альф, которые я назову как не зависящая от размещения альфа (aPL) и обусловленная размещением альфа (aLS). Они противопоставлены в табл. 2. Различие было четко сформулировано В. Госсетом (Gossett, 1937, р. 367) и, по-видимому, адекватно понято статистиками.

Таблица 2

Сравнение основных свойств альфы, не зависящей от размещения (aPL), и альфы, обусловленной размещением (aLS)

a

Область применения

Точно рассчитывается или устанавливается?

Определяются ли процедурой назначения?

Определяется ли природой вариабельности экспериментальных единиц?

aPL

Общее значение, определяемое как среднее из всех возможных размещений

Да*

Да*

Нет

aLS

По одной на каждую используемую схему размещения

Нет

Нет

Да

* Только при условии, что процедуры рандомизации используются везде, где это возможно.

aPL – это традиционная альфа, которой придавали большое значение Р. Фишер и другие статистики и которую обычно рассчитывает экспериментатор. Она определяет вероятность ошибки первого рода, т.е. заключения, что эффект воздействия имеет место, когда фактически его нет. Эта вероятность усредняется по всем возможным комбинациям размещения экспериментальных единиц относительно уровней воздействия. Или в символьном выражении: , где суммирование идет по всем возможным размещениям n.

Когда выбран определенный план экспериментального размещения и уровни воздействия соотнесены с экспериментальными единицами, можно определить aLS – вероятность ошибки первого рода при использовании именно данного размещения. Так как каждый эксперимент обычно выполняется только единожды с использованием единственного размещения, aLS представляет намного больший интерес для экспериментаторов, чем aPL. Обычно aLS не равно aPL. Например, если пространственный градиент переменных, оказывающих влияние, будет существовать в ряду или на сетке экспериментальных единиц, то aLS обычно будет ниже aPL, когда воздействия хорошо перемешаны, и выше, чем aPL, когда воздействия до некоторой степени сгруппированы.

Проблема состоит в том, что величина aLS не может быть известна или точно определена. Это не зависит от того, было ли конкретное размещение получено методами рандомизации или нет. Таким образом, экспериментаторы должны возвратиться к aPL как к единственному объективному способу определить допустимый риск ошибки, даже если aPL слабо связана с фактически проведенным экспериментом. Это не означает, однако, что, если мы устанавливаем уровень значимости для aPL, равный 0.05, мы должны придерживаться всех процедур (строгой рандомизации, в особенности) необходимых для того, чтобы гарантировать точность этой спецификации. Иными словами, если вы выберете систематический или сбалансированный план размещения, как рекомендует В. Госсет (Gossett, 1937), или используете вторую схему, предложенную Д. Коксом (Cox, 1958), или достигнете перемешивания еще каким-то специальным методом, то любой из этих экспериментов приведет, вероятно, к соотношению aLS < 0.05. То есть, эксперимент будет достаточно консервативен относительно ошибки первого рода. Д. Кокс (Cox, 1958, p. 88) так кратко суммирует философию этого подхода: “…использовать подозрительные планы размещения лишь только, чтобы соблюсти формальные правила, - значит втискивать наше поведение в прокрустово ложе математической теории. Наша цель - выбор плана конкретного эксперимента, который будет хорошо работать; в выполнении этого нам могут помочь основные концепции, но точное выполнение всех математических условий не является главной целью.

Что более полезно: (1) знать, что выбранное значение a представляет вероятную верхнюю границу для aLS, или (2) быть уверенным, что оно точно равняется aPL, и иметь смутное представление относительно того, какова может быть верхняя граница для aLS? Каждый экспериментатор должен решить эту дилемму для себя.

Смещена ли оценка эффекта воздействия? Второе классическое возражение по использованию систематических планов состоит в том, что “отклонения могут быть заложены вместе с факторами воздействия вследствие того, что схема систематического размещения будет совпадать с рисунком распределения плодородия на поле, и эти отклонения могут проявляться в целой группе опытов с одинаковыми схемами размещений” (Yates, 1939, p. 442). Это возражение также относится ко всем планам, где специальные усилия достигнуть хорошего перемешивания произвели в итоге некоторую отмеченную степень регулярности в схеме экспериментального размещения. Хотя приведенные рассуждения многократно повторяются в учебниках по статистике и планированию эксперимента, эти возражения не имеют под собой основы. В небольших экспериментах рандомизация будет часто производить систематические или почти систематические схемы расположения. Будут ли отброшены такие хорошо перемешанные "правильные" размещения приверженцами фишеровской идеологии из-за небольшого шанса совпадения с пространственной периодичностью? Представляется, что не будут. Они, вероятно, сияют от удовлетворения, думая, что можно получить лучшее из обоих миров: определить aPL, и иметь серьезное основание полагать, что aLS < aPL. Кроме того, когда некоторый фактор действительно колеблется по своей величине в экспериментальной области, это обычно бывает очень нерегулярно и апериодически. В этом случае, самое большое смещение в оценке эффекта воздействия будет при использовании некоторой специфической несистематической схемы (или плана иного типа), но никак не при систематическом размещении.

Однако Р. Фишер сам был настолько ревностным в этой дискуссии, что он, возможно, предпочел бы худший из обоих миров, вместо того, чтобы уступить оппонентам какую-либо "пядь земли". Когда его спросили в 1952 г., что он сделал бы, если бы процедура рандомизации случайно произвела специфический систематический план латинского квадрата, “"сэр" Рональд сказал, что он бы попробовал выбрать еще раз и что в идеале необходима теория, явно исключающая регулярные квадраты” (Savage et al., 1962, р. 88). В 1956 г. в разговоре с ним В. Юден (Youden, 1972) описал процедуру "ограниченной рандомизации", в которой точное знание aPL сохранено за счет того, что отбраковываются и очень сегрегированные, и очень перемешанные варианты размещения. В его примере с четырьмя уровнями воздействия и двумя повторностями по каждому уровню В. Юден отбросил бы среди прочих следующие размещения: AABBCCDD, AABBCDCD, ABCDABCD и ABCDBADC. Возможно, такая процедура была бы допустима для Р. Фишера. В любом случае, для двух последних хорошо перемешанных размещений гораздо меньше риск ошибочного обнаружения эффекта воздействия, чем для многих размещений, допустимых для В. Юдена (например, ABACCDDB). Хотя можно было попытаться минимизировать некоторые подобные нелепости, подстраивая критерии приемлемости Юдена, я полагаю, что нежелателен любой подход, который априорно отклоняет определенные схемы размещения из-за предполагаемой "чрезмерной" степени перемешивания или регулярности.

Очевидно, что в многократно повторяемых сериях экспериментов нежелательно использовать много раз один специфический систематический план, точно так же, как было бы нежелательным получить единственный рандомизированный план и использовать его неоднократно. Все же нужно признать, что на практике специфические систематические схемы используются много раз в определенных типах работы. Обычно это делается не из статистических побуждений, а скорее, из-за удобств эксплуатации. Классический пример – план, к которому приводит "метод полубороздовой полосы" при посадке зерновых двух разновидностей (Gossett, 1923; Neyman, Pearson, 1937). Это привело к чередованию полос зерновых следующим образом: ABBAABBAABBAAB. Достоинства и ошибки такого расположения, используемого неоднократно, были центром большой части дебатов между Р. Фишером и В. Госсетом.

Мнимые повторности в управляемом эксперименте

Если воздействия сгруппированы в пространстве или времени (B-l, B-2, B-3), или если все повторности при данном уровне воздействия так или иначе взаимосвязаны (В-4), или если "повторности" являются выборкой из одной единственной экспериментальной единицы (В-5), то повторности не являются независимыми (рис. 1). И если данные таких экспериментов используются, чтобы проверить наличие эффекта воздействия, то такие расчеты манипулируют с мнимыми повторностями. Формально, все схемы В (рис. 1) одинаково неверны и эквивалентны примеру 4 (см. выше); в лучшем случае с их помощью можно только продемонстрировать различие между "локальными точками". Разумеется, если мы знаем точные детали эксперимента по схеме В, то, вероятнее всего, сможем найти основания для того, чтобы субъективно оценить, был ли эффект воздействия, и, если это так, насколько большим он являлся. При решении такой задачи используется здравый смысл, биологическое знание и интуиция; прикладная статистика к такого рода оценкам отношения не имеет.

Два библиографических исследования

Чтобы оценить частоту использования мнимых повторностей в литературе, мы исследовали экспериментальные планы и статистические анализы 156 статей, сообщивших о результатах управляемых экологических экспериментов в полевых условиях. Эти статьи охватывают результаты всех полевых экспериментов, опубликованных в последних томах выбранных журналов: Ecology (1979, 1980); American Midland Naturalist (1977, 1978, 1979, 1980); Limnology and Oceanography (1979, 1980); Journal of Experimental Marine Biology and Ecology (1980); Journal of Animal Ecology (1979, 1980); Canadian Journal of Fisheries and Aquatic Sciences (1980, № 3); Journal of Mammalogy (1977, 1978, 1979, 1980). Анализу также подверглись экспериментальные статьи в томе под редакцией В. Керфута (Kerfoot, 1980), а также статьи, внесенные в библиографический список несколько недавних статей и обзоров (Connell, 1974; Hurlbert, 1975; Chew, 1978; Hayne, 1978; Hayward, Phillipson, 1979; Paine, 1980; Peterson, 1980; Virnstein, 1980; Hurlbert, Mulla, 1981; Munger, Brown, 1981). Каждая статья была помещена в одну из четырех категорий, согласно тому, повторялись ли воздействия и были ли выполнены проверки по критериям значимости. Результаты представлены в табл. 3.

Таблица 3

Классификация полевых экологических экспериментов (после 1960 г.) по типу плана эксперимента и примененного статистического анализа

Предметная область

Общее количество исследований (статей)*)

План и категория анализа

I

II "мнимая повторность"

III

IV

Повторяются ли воздействия?

 

Нет

Нет**)

Да

Да

Применялась ли проверка гипотез?

 

Нет

Да

Нет

Да

Пресноводный планктон

48 (42)

14

5 (10%) 1)

15

14

Морской бентос

57 (49)

13

18 (32%) 2)

15

11

Мелкие млекопитающие

24 (21)

1

12 (50%) 3)

2

9

Другие области

47 (46)

6

13 (28%) 4)

9

19

Итого

176 (156)

34

48 (27%)

41

53

*) Если работа представляла два или больше эксперимента и они относятся к различным категориям, то эта статья учитывалась неоднократно, т.е. для каждой категории. Следовательно, число учтенных в анализе исследований несколько больше, чем число обследованных статей (в круглых скобках).

**) В некоторых исследованиях этой категории воздействия повторялись, но манера, в которой использовались критерии значимости, предполагала, что повторности были иного вида, чем это имело место фактически (см. раздел о структурной мнимой повторности). Мы также признаем, что есть частные случаи, где эффекты воздействия могут быть оценены статистически даже в отсутствие повторностей, но с такими случаями мы не столкнулись в этом обзоре.

1) (Jones, Moyle, 1963; Cowell, 1965; Giguere, 1979, размер выводка; Fry, Osborne, 1980; Marshall, Mellinger, 1980, эксперимент ELA).

2) (Harger, 1971, две клетки; Menge, 1972; Haven, 1973; Paine, 1974, 1980, эксперименты с Katharina, Acmea; Young et al., 1976; Peterson, 1977; Virnstein, 1977; Bell, Coull, 1978; Reise, 1978, частично; Rogers, 1979, частично; Vance, 1979; Bell, 1980; Hixon, 1980; Holland et al., 1980; Lubchenco, 1980; Markowitz , 1980; Sherman, Coull, 1980).

3) Spitz, 1968; Cameron, 1977, частично; Grant et al., 1977; Price, 1978, конкурентная плотность; Abramsky et al., 1979; Crowner, Barrett, 1979; Dobson, 1979; Gaines et al., 1979; Holbrook, 1979; Reichman, 1979; Spencer, Barrett, 1980; Munger, Brown, 1981, парный тест.

4) Gilderhus, 1966; Clarke, Grant, 1968; Cope et al., 1969; Malone, 1969; Hurlbert et al., 1971, утки; Werner, Hall, 1976; Bakelaar, Odum, 1978; Durbin et al., 1979, дыхание лесного опада; McCauley, Briand, 1979, эксперимент 1976 г.; Vossbrink et al., 1979; Hall et al., 1980; Rausher, Feeny, 1980.

Некоторые статьи, которые были частью выборки, определенной выше, не были включены в табл. 3, потому что описание их плана эксперимента и статистических процедур были слишком неопределенными или потому что я не смог получить их вовремя. Несколько статей были включены в подсчет просто потому, что они оказались на моем столе в то время, когда я выполнял обзор.

Эти статьи разумно расценить как представительный, хотя и не случайный срез литературных публикаций последнего периода. Большинство сведенных в таблицу работ было опубликовано в конце 1970-х годов. Все работы, опубликованные до 1960 г., были исключены из подсчета.

Тематически мною выделены три предметных области, в которых объектами полевого экспериментирования были пресноводные планктонные организмы, морской бентос, расположенный в приливной зоне или чуть ниже приливно-отливной зоны, и популяции наземных мелких млекопитающих (грызунов). Эксперименты в этих предметных областях представлены в табл. 3 отдельными строками, а все другие исследования отнесены к рубрике "другие области".

Анализ установил, что свыше 27% недавних управляемых экспериментов в полевых условиях имели дело с мнимыми повторностями, что составляет 48% [= 48 / (48 + 53)] всех исследований, применяющих оценку статистических гипотез. Это число ошеломляюще высоко, особенно если учесть, что в этом анализе рассматривался только один класс статистических ошибок.

Распределение исследований по категориям планирования и статистического анализа достоверно отличается между тремя предметными областями (c 2 = 20.5, df = 6, р < 0.005). Когда эксперимент в полевых условиях сталкивается с большими проблемами учета (мелкие млекопитающие), мнимая повторность не только является распространенной, но и доминирующей. Когда эксперименты в природных условиях являются более легкими для учета (пресноводный планктон), мнимые повторности не столь часты. Исследования морского бентоса являются промежуточными в обоих отношениях. Однако если рассматривать только те работы, где проводилась оценка статистических гипотез (категории II и IV), то исследования морского бентоса оказываются в наибольшей мере подверженными псевдорепликации (62% исследований), им близки исследования мелких млекопитающих (57%), зато исследования планктона и в этом случае выглядят относительно невинными (26%).

Второй обзор литературы был выполнен 11 студентами при изучении курса планирования эксперимента. Каждый из них был проинструктирован выбрать наиболее интересную ему тему, найти 50 описаний управляемого эксперимента по ней, и исследовать их на адекватность планирования и статистического анализа. Мнимые повторности были только одной из нескольких проблем, на которые они должны были обратить внимание. В табл. 4 показана частота, с которой мнимые повторности были найдены студентами. Из 537 исследованных статей 12% (62 статьи) оказались затронуты этой проблемой. Большое количество из этих 537 сообщений не использовало проверку статистических гипотез, и в них, по моему определению, мнимые повторности не могли иметь место. Из 191 статьи, где ясно описан план эксперимента и где использовалась статистическая обработка, 26% (50) включали операции с мнимыми повторностями (данные Gasior, Rehse и Blua, представленные в табл. 4, в этом расчете не использовались). Различия между этим числом и 48%, полученными в моем собственном обзоре, обуславливаются, вероятно, несколькими причинами. Одной из них был тот факт, что студенческий обзор не был ограничен экологическими экспериментами в натурных условиях, а включал также лабораторные исследования различного вида. Частая нехватка ясности в описаниях расчетов и исследований была, возможно, большей помехой для студентов, чем для меня в первом обследовании.

Таблица 4

Использование мнимых повторностей в различных сегментах биологической литературы (по результатам обзоров студентами)

Предметная область

Журнал

Количество статей

Рецензент

Исследовано

В т.ч., описан процесс и использован статистический анализ

из них, использовали мнимые повторности

Морские натурные эксперименты

Journal of Experimental Marine Biology and Ecology

50

18

7

J. Johnson

Морские организмы

Marine Behaviour and Physiology;
Biological Bulletin

44

25

15

M.Chiarappa

Влияние тяжелых металлов на морской планктон

Статьи из библиографии А.Девиса (Davis, 1978)

50

5

1

A. Jones

Температурные эффекты у рыб

Различные

50

29

7

T. Foreman

Солончаковая растительность

Различные

50

31

4

P. Beare

Температурные зависимости у растений

Различные

50

11

7

J. Gilardi

Приспособленность у животных

Различные

44

38

8

M. Russell

Физиология животных

Physiological Zoology

50

?*

7

C. Gasior

Эффект ионизирующей радиации

Radiation Research;
Health Physics

50

34

1

J. DeWald

Экология животных

Journal of Animal Ecology

50

?*

2

M. Rehse

Взаимодействие травоядных животных и растений

Различные

49

?*

3

M. Blua

Итого

537

191

62

 

*) О числе работ, попадающих под этот заголовок, не сообщается.

Уровень 26%-го использования псевдорепликации может быть сопоставлен с оценкой Г. Инниса (Innis, 1979) о том, что около 20% статей, рассмотренных студентами на его курсе количественных методов, содержали статистические ошибки или ошибки вычислений (с учетом только тех статей, которые давали достаточно деталей для оценки). И в другом очень подробном обзоре того, как дисперсионный анализ неправильно использовался специалистами по биологии моря, А. Андервуд (Underwood, 1981) подсчитал, что 78% из 143 обследованных работ содержали статистические ошибки того или иного рода.

Простые мнимые повторности

Самый распространенный тип управляемого эксперимента в полевых экологических исследованиях включает единственную повторность на каждое воздействие. Это ни плохо, ни удивительно. Повторность часто невозможна, или нежелательна, когда изучаются достаточно крупномасштабные системы (целые озера, водоразделы, реки и т.д.), а также когда отчетливый эффект воздействия уже предвосхищен, или когда требуется только грубая оценка результата, или когда стоимость повторения воздействия оказывается очень большой. Во всех этих случаях, эксперименты, включающие неповторяемые воздействия, могут быть единственным или лучшим выбором.

Нежелательно то, что предварительным заключениям, полученным из неповторяемых воздействий, придается незаслуженная маска строгости из-за ошибочного применения статистических методов (например, Barrett, 1968; Spitz, 1968; Malone, 1969; Young et al., 1976; Waloff, Richards, 1977; Bell, Coull, 1978; Buzas, 1978; Rogers, 1979; Vance, 1979; Holland et al., 1980; Sherman, Coull, 1980; Spencer, Barrett, 1980). В этих исследованиях "строгое подобие", "повторяемость" или "идентичность" экспериментальных единиц до манипуляции иногда оценивается "на глазок" или взятием частичной пробы с последующим измерением. Когда получены количественные данные, к ним обычно применяются критерии значимости, и обычно обнаруживается, что до опыта "отсутствует достоверное различие" между одной экспериментальной и одной контрольной единицей. Этот результат используется неявным образом, чтобы подтвердить вывод о том, что значимые различия, найденные между этими двумя единицами после манипуляции, объясняются эффектом воздействия (иллюстрацию этого см. в работе Crowner, Barrett, 1979).

Обоснованность использования неповторяемых воздействий зависит от экспериментальных единиц, которые должны быть идентичными друг другу во время манипуляции и сохранять эту идентичность после манипуляции, за исключением, разумеется, эффекта воздействия. Отсутствие значимых различий до манипуляции не может интерпретироваться как доказательство такой идентичности. Отсутствие значимости фактически может являться только следствием небольшого объема выборок, которые берутся из каждой единицы. В любой полевой ситуации (и, вероятно, также в любой лабораторной ситуации) известен основной принцип: две экспериментальных единицы различны в каждом измеряемом свойстве. Таким образом, если мы увеличиваем объемы выборок, взятых в каждой экспериментальной единице, и используем критерий значимости (например, t), выбирая α = 0.05, наши шансы обнаружить предманипуляционные различия увеличиваются с увеличением объема выборок. Вероятность этого приблизится к 1.0, когда выборки из экспериментальной единицы возрастут настолько, чтобы представить весь численный состав этой единицы (по крайней мере, если в вычислении стандартных ошибок используется конечный поправочный коэффициент).

Упомянутому выше обстоятельству может быть противопоставлен результат увеличения числа независимых экспериментальных единиц на каждый уровень воздействия. Пусть экспериментальные единицы соотнесены с воздействиями рандомизированным способом, и, если мы снова используем критерий значимости на уровне α = 0.05, то в этом случае вероятность обнаружить достоверные предманипуляционные различия между воздействиями остается неизменной (и равной 0.05) независимо от числа экспериментальных единиц на каждое воздействие и объема выборок, взятых из экспериментальной единицы. Это – превосходный критерий того, как отличить истинную повторность от мнимой.

Пример 9. Пусть имеется популяция жуков, распределенная по большому полю с истинными значениями средней плотности m = 51 экз./м2 и дисперсии s 2 = 100 (для 1 м2 выборочной единицы). Мы хотим проверить, есть ли у изучаемого гербицида какое-нибудь краткосрочное воздействие на плотность жуков. Позвольте нам предположить, что мы являемся всезнающими и знаем, что в наших экспериментальных условиях гербицид вообще не будет иметь никакого эффекта воздействия на жуков. Реализуем эксперимент по двум различным планам:

  1. План A – поле разделено на две части (1 и 2), "чрезвычайно идентичные", но фактически отличающиеся немного по плотности жуков, m 1 = 52, m 2 = 50 и s 21 s 22 = 64. Предварительная выборка из обеих половин не находит достоверного различия между ними. Гербицид распыляется на одной части поля, а другая сохраняется как контроль. После 48 часов снова выполняется выборочное измерение плотности жуков на обеих половинах поля.
  2. План В – все поле покрыто воображаемой сеткой с ячейками 4 x 4 м. Определенное число (n) ячеек отобрано наугад, чтобы служить участками контроля, и равное им число выделено для обработки гербицидом. Предварительная выборка (предположим неразрушительное обследование участков пощадью 1 м2 внутри каждого участка) из обоих множеств подопытных участков не находит достоверного различия между ними. Применим гербицид к одной совокупности ячеек, и 48 часами позже снова проведем измерение плотности жуков на обоих множествах участков. (Я опускаю здесь любое рассмотрение проблем осуществления этого плана, например, должны ли участки быть огорожены и т.д.)

Существенное различие между этими двумя планами может быть иллюстрировано следующим образом. Повторим этот эксперимент (в обоих вариантах плана) многократно, каждый раз увеличивая число повторностей (т.е. выборок в плане A и участков в плане B). Так как известны истинные параметры (m и s 2) для всего поля, мы можем вычислить для каждого эксперимента вероятность обнаружения статистически значимых различий при данном количестве повторностей, предполагая использование t-критерия (Steel, Torrie, 1980, р. 113-121). В представленном примере эта вероятность – вероятность ошибки первого рода. Результаты вычислений показаны на рис. 4. Для спланированного должным образом эксперимента (В) a остается соответствующей принятому уровню значимости 0.05 и не зависит от n. Для плана (A), который полагается на "идентичность" половинок поля, a > 0.05 для всех n и приближается к 1.0, когда n становится очень большим.

Рис. 4. Зависимость между вероятностью ошибки первого рода (a ) и числом повторностей (n) для двух планов эксперимента. Значения a в обоих случаях относятся как к предварительным замерам, так и после проведения эксперимента, поскольку мы предполагаем, что обработка гербицидом не вызывает никакого эффекта

Проведенный анализ показывает, что псевдорепликация, характерная для плана A, увеличивает вероятность неверного обнаружения эффекта воздействия. Другими словами, по этому плану нулевая гипотеза, которую мы проверяем, формулируется не как "отсутствует эффект влияния гербицида", а скорее как "отсутствуют различия между половинами поля". Различие между половинами поля может действительно существовать, как в примере, независимо от обработки гербицидом. Таким образом, когда мы заключаем, что имеет место значимый эффект действия гербицида, мы совершаем ошибку первого рода относительно интересующей нас гипотезы ("нет эффекта влияния гербицида"). Но относительно единственной гипотезы, фактически тестируемой планом А ("нет различий между участками"), статистическая значимость позволяет нам избежать ошибки второго рода. В плане А вероятность ошибки первого рода относительно гипотезы "нет эффекта влияния гербицида" эквивалентна вероятности избежать ошибки второго рода относительно гипотезы "отсутствуют различия между половинами поля". Именно эта последняя вероятность, обычно называемая "мощностью критерия" и обозначаемая символически как 1 - b (где b – вероятность ошибки второго рода), была рассчитана и приведена для плана А на рис. 4. (Примечание: этот пример не должен быть рассмотрен в качестве рекомендации повторного применения t-критерия как лучшего метода анализа эксперимента по "плану B". Такой подход используется здесь в иллюстративных целях и для простоты вычисления a .)

Множественность измерений для экспериментальной единицы. Ни одно из сделанных выше утверждений не должно интерпретироваться как довод против взятия множественных выборок или измерений для каждой экспериментальной единицы. Очевидно, что это может быть только желательным, поскольку повышает чувствительность эксперимента, увеличивая точность, с которой оценены свойства каждой экспериментальной единицы, и, следовательно, каждого воздействия. Однако множественные выборки из каждой экспериментальной единицы не увеличивают число степеней свободы, пригодных для проверки гипотезы об эффекте воздействия. В таких испытаниях самым простым и наименее подверженным ошибке подходом было бы использовать только единственную скалярную величину (выборочное среднее) для каждой экспериментальной единицы и полностью опустить любой формальный анализ данных по индивидуальным выборкам и подвыборкам. Более причудливые подходы (например, иерархический дисперсионный анализ) не являются более мощными в обнаружении эффекта воздействия, но более подвержены ошибкам при вычислении и интерпретации результатов.

Повторяемость (replicability) и ее ложные проявления. Запутывающее понятие "повторяемости" является главным вкладом в популярность простой псевдорепликации. Идея состоит в том, что перед экспериментом повторности экспериментальных единиц должны быть чрезвычайно подобными, если не идентичными. Такое представление обычно отражает предположение или исходную точку зрения на то, что воздействия не должны повторяться, что указывает нехватку понимания основ планирования эксперимента. Повторяемость также называют "воспроизводимостью" (Abbott, 1966), а желательное состояние подобия называют "близким дублированием" (Abbott 1966) и даже "повторностью" (Takahashi et al., 1975; Grice et al., 1977, Menzel, 1977, Menzel, Case, 1977), игнорируя обычное статистическое значение последнего термина.

Фактически "повторяемость" относится ни к чему иному, как к степени подобия экспериментальных единиц, которая существует или может быть достигнута. Таким образом, это излишний термин: преимущества однородности экспериментальных единиц хорошо известны. Это также вводящий в заблуждение термин, предлагающий идею, что, если степень подобия достаточно высока, истинная повторность воздействий становится ненужной при проведении строгого эксперимента. Это никогда не будет иметь место в экологической работе. Примером неуместного беспокойства, которое производит это понятие, является обзор Г. Кука (Cooke, 1977, р. 64) об использовании лабораторных водных микрокосмов в экологических исследованиях:

Степень повторяемости таких основных характеристик, как плотность популяций и сукцессионные смены, во многих исследованиях не были соответствующим образом оценены. Остаются также не установленными уровень расхождений, которые отмечаются даже между тщательно отобранными копиями систем, и вариабельность, допустимая для экспериментальных экосистем. Вариацию, большую, чем это обычно принято в экспериментальной работе, вряд ли можно будет принять, так как небольшие различия в начале эксперимента могут быть увеличены в ходе сукцессионного процесса... Необходима дальнейшая работа относительно повторяемости.

Ясно, что необходимостью является не "дальнейшая работа относительно повторяемости", а скорее повторность воздействий!

При подведении итогов, доказывая, что повторяемость достижима, Г. Кук (Cooke, 1977, р. 64, 86) заявляет:

Есть достоверные свидетельства, что повторности микрокосмов не отличаются значительно друг от друга по уровню обмена веществ в биотическом сообществе (Abbott 1966)... Для шести водотоков [эксперимент в университете штата Орегон] была продемонстрирована повторяемость, по крайней мере, относительно интенсивности обмена веществ в биотическом сообществе (Mclntire et al.; 1964)...”.

Каково значение этих заключений? В двух исследованиях, процитированных Г. Куком, а также в упомянутых Р. Байерсом (Beyers, 1963), было установлено, что повторности микрокосмов различались по всем исследованным свойствам (табл. 5), а стандартные отклонения составили от 7% до 170% от средних величин.

Таблица 5

Изменчивость повторностей микрокосмов по наблюдениям из различных исследований

Статья

Показатель

Число микрокосмов

Диапазон измерений

Коэффициент вариации [100(s/x)]

Стандартное отклонение (s)

Abbott, 1966

Потребление кислорода

18

2.02-5.21

32

4.78

Суммарная продукция

18

2.11-3.43

14

2.88

Постоянная реаэрации

18

1.13-0.12

172

0.54

Нитраты

18

8.0-16.8

22

2.49

Нитриты

18

0.19-0.26

11

0.024

Ортофосфаты

18

0.16-1.30

74

0.36

Beyers, 1963

Суммарная продукция

12

1.97-3.13

14

0.367

Потребление кислорода

12

1.86-3.02

14

0.358

Эффективность общего фотосинтеза

12

2.0-4.0

22

0.706

Mclntire, 1964 (данные от 15 августа)

Потребление кислорода

6

1.6-3.2

33

0.782

Суммарная продукция

6

2.9-4.1

14

0.455

Биомасса

6

98.0-148.0

17

21.4

Takahashi et al., 1975

Биомасса фитопланктона (на 15 день)

4

457-2290

76

827

Thalassiosira (% от общего фитопланктона)

4

0.18-0.63

46

0.19

Продукция фотосинтеза

4

45-146

45

47

Отсутствие значимости в тестах У. Эббота (Abbott, 1966) несущественно, поскольку это в значительной степени дело объема выборки (см. выше обсуждение примера 8). У. Эббот относится (p. 267) к коэффициентам вариации в диапазоне 13-15% как к свидетельству "обоснованной воспроизводимости". Им не делается прямого вывода, что при таких значениях повторность воздействий становится ненужной, но в его более поздней экспериментальной работе (Abbott, 1967) повторности уже не используются. К. МакИнтайр с соавторами (Mclntire et al., 1964) аналогично не упоминает о необходимости повторностей, а в своем более позднем эксперименте (Mclntire, 1968) повторности не использует.

Хороший пример того, как понятие "повторяемость" может неверно направить усилия в исследованиях, предоставлен программами Контролируемого эксперимента по загрязнению экосистем (Controlled Ecosystem Pollution Experiment – CEPEX). “Совместная, мультидисциплинарная программа исследования ставила задачу проверить результаты постоянного воздействия низких уровней загрязняющих веществ на пелагические морские организмы”, имела высокую стоимость и использовала большие столбцы океанской воды, заключенные "по месту" в полиэтиленовые цистерны, некоторые емкостью до 1700 м3 (Menzel, Case, 1977). Ранние результаты программы опубликованы М. Такахаши с соавторами (Takahashi et al, 1975), Г. Грайсом с соавторами (Grice et al, 1977) и в 17 статьях Bulletin of Marine Science 27 (январь 1977 г.). Эти сообщения последовательно используют термин “репликация”, что подразумевает: “подобие между экспериментальными единицами со сходным воздействием”. Хотя один из экспериментов, о которых сообщалось, использовал две контрольных цистерны (эксперимент “Медь I”), то во всех других случаях повторности воздействия отсутствовали. Ни в одной из этих статей нет свидетельств осознания авторами того, что довольно "мягкие" биологические результаты экспериментов CEPEX могли бы быть намного более конструктивными, если бы воздействия повторялись. Двукратной повторности было бы достаточно, чтобы показать, что системы CEPEX были столь подобны, как исследователи себе это представляют.

В статье (Menzel, Case, 1977, р. 2), открывающей сборник, авторы утверждают, что “необходимо... иметь повторность цистерн с контролем и с экспериментальным воздействием”. Это звучит прекрасно, но реально имелось в виду только то, что различные цистерны должны быть первоначально подобными, а не то, что воздействия должны повторяться. Позже Д. Мензель (Menzel, 1977, р. 142) заявляет:

Второе соображение состоит не в том, насколько близко в цистерне воспроизводится внешняя окружающая среда, а тождественны ли они друг другу при одинаковых воздействиях. В случае CEPEX эксперимент на повторность был проведен М. Такахаши с соавторами (1975), который продемонстрировал приемлемое сходство экосистем в четырех контейнерах через более чем 30 дней. Это исследование описало последовательность событий достаточного сходства в незагрязненных одинаково устроенных контейнерах, чтобы позволить нам ожидать, что, когда будут добавлены загрязняющие вещества, может быть сделана реалистическая оценка их воздействия на подопытные популяции”.

Чтобы объективно оценить это "приемлемое сходство экосистем", я вычислил меры изменчивости для трех переменных из диаграмм, приведенных М. Такахаши и др. (1975). Результаты даны в табл. 5. Снова мы не видим никаких оснований тому, что можно обойтись без истинных повторностей. Безусловно, “эти четыре контейнера вели себя биологически в очень сходной манере” (Takahashi et al., 1975), поскольку используемые экспериментальные единицы почти всегда подобны до некоторой степени. Но, несмотря на такое общее подобие, дисперсия показателей высока, и это заставляет предположить, что эффекты управляемых переменных в ранних экспериментах CEPEX были оценены недостаточно точно.

Понятие "повторяемость" часто включает идею, что если два тождественно рассматриваемых микрокосма первоначально подобны, то они останутся таковыми и в дальнейшем. Сообщение о CEPEX дает нам ясное утверждение этого "принципа":

Показано, что среди CEE [Controlled Experimental Ecosystems – Управляемые Экспериментальные Экосистемы] было хорошее численное подобие первоначального видового состава. Очевидно, поэтому последующие различия в численностях популяций или видовом составе не могут быть приписаны различиям в захваченных водных столбцах” (Gibson, Grice, 1977, p. 90).

Эта идея противоречит логике. И опыт каждого экосистемного экспериментатора, который потрудится использовать повторности, вероятно, походит на опыт Р.Уиттекера (Whittaker, 1961, р. 162), который нашел, что

Эксперименты с аквариумами в закрытых помещениях были затронуты явлением индивидуальности аквариума. Величина контрастов между аквариумами, в которых создавались, казалось бы, идентичные условия, превысила ожидаемую... Различия в аквариумах, которые уже были достоверными в самой ранней фазе эксперимента, обычно увеличивались, а не сглаживались при дальнейшем развитии процесса”.

В отличие от большого количества их "неповторяющих" коллег, которые работают в приливно-отливной зоне, исследователи CEPEX, по большей части, воздержались от применения статистических критериев значимости. Они не сделали, как выразился Р. Грин (Green, 1979, р. 71), “попытку скрыть... выполняя статистические танцы удивительной сложности, непроверяемую сущность полученных результатов”. Из 19 сообщений о CEPEX, которые были рассмотрены нами, найдено только одно, где была найдена мнимая повторность (Thomas, Seibert, 1977).

Позже понятие "повторяемости" обсуждается многими участниками симпозиума Microcosms in Ecological Research (Giesy, 1980). Здесь мы снова находим примеры "недисциплинированной терминологии", "танцы с бубном" вокруг коэффициентов вариации и подобия экспериментальных единиц, но в то же время большое пренебрежение к потребности в повторении воздействий. Это приводит к утверждениям типа: “...повторность [микрокосмов] может быть не достижима даже в тщательных лабораторных условиях” (Harte et al., 1980, р. 106) и “повторяемость двух микрокосмов, которые являются частью единой естественно развивающейся окружающей среды, есть величина переменная, и трудно предусмотреть степень соответствия, необходимую, чтобы считать два микрокосма подмножествами одной и той же экосистемы” (Giesy, 1980, xlv). Озвученные здесь проблемы иллюзорны. Многие из экспериментов, представленных статьями в этом томе тезисов симпозиума, не использовали повторение воздействий, и, по крайней мере, в трех случаях (Maki, 1980; Manuel, Minshal, 1980; Rodgers et al., 1980), была зафиксирована мнимая повторность. На другом конце спектра – представленные статьями в этом же томе многочисленные хорошо спланированные эксперименты с использованием повторения воздействий. В то же время ни один из их авторов не счел целесообразным сделать ясное утверждение о потребности повторности воздействий при исследовании микрокосмов; возможно, этим авторам подобное утверждение казалось слишком очевидным.

Мой вывод о том, что повторяемость (replicability) – путь в никуда, ложная проблема. Вопрос не должен иметь такую формулировку: "Действительно ли все экспериментальные единицы достаточно сходны, чтобы можно было их использовать по одной на каждый уровень воздействия?" Он должен ставиться в следующей форме: "Учитывая наблюдаемую или ожидаемую изменчивость экспериментальных единиц, сколько их необходимо назначить для каждого уровня воздействия?"

Об оптимальном плане исследования воздействий. Принципы формирования выборок в применении к экологическим полевым исследованиям, вероятно, нигде не обсуждались более ясно или более живым способом, как в недавней книге Р. Грина (Green, 1979). Приятно, что в ней соблюдается довольно высокое соотношение здравого смысла и математических уравнений, и при этом не утрачена экологическая специфика. Но, как бы то ни было, в одном вопросе я с ним не могу согласиться. Р. Грин полагает справедливым (р. 29-30, 68-71), что для проверки эффекта воздействия на окружающую среду некоторого внешнего фактора можно использовать критерии значимости даже в тех случаях, когда мониторингу доступны только единственная область контроля и единственный район, подверженный воздействию.

Один из примеров в книге Р. Грина посвящен сбросу сточных вод в реку. Если есть возможность взять повторные выборки выше и ниже по течению от места выброса, причем сделать это до и после момента начала выброса, Р. Грин предлагает выполнить то, что он называет “оптимальным исследованием воздействия”. Как только данные собраны, он рекомендует применить такую процедуру, как дисперсионный анализ, а “доказательством результата воздействия считать статистически значимую изменчивость показателей во времени для фиксированных точек пространства” (p. 70). Я бы утверждал, что этот анализ является неподходящим и лучшее, что можно сделать в такой ситуации – это разработать диаграммы и таблицы, которые ясно показывают приблизительные средние значения и изменчивость данных, на которых они базируются.

Хотя статистическая процедура (дисперсионный анализ ANOVA), рекомендуемая Р. Грином, более сложна, чем тесты по t-критерию, U-критерию или c 2-критерию, использованные в большей части цитированных ранее статей, в которых были обнаружены мнимые повторности (см. табл. 3), псевдорепликация и тут имеет не меньшую результативность. ANOVA может только продемонстрировать существенные различия между точками отбора проб, а не значимость эффекта сброса отходов. Поскольку воздействия не могут быть перемешаны или распределены случайным образом по контролируемым участкам (нескольким зонам отбора проб выше и ниже по течению), эксперимент решает проблему самым субъективным и приблизительным способом.

Выражаясь более определенно, пространственная изменчивость во времени {areas-by-times interaction} может интерпретироваться как результат воздействия, только если мы примем следующие предположения: различия между створами выше и ниже по течению останутся неизменными во времени, никаких сбросов отходов не было или сброс отходов не вызвал эффекта. Это необоснованно. Величина истинных различий (D m ) между двумя "подобными" сегментами реки (или двумя "подобными" водоемами, или двумя "подобными" участками поля) постоянно изменяется во времени.

Если бы ANOVA была уместной, то мы должны были бы принять произвольные решения о том, как измерить имеющиеся различия. Пусть, например, плотность подeнки вверх по течению – Xu, а в нижнем течении – Xd. Должны ли мы сформулировать нулевую гипотезу о том, что (Xu/Xd) не будет изменяться со временем или это должно относиться к показателю (Xu - Xd)? [Л. Эберхард (Eberhardt, 1976, р. 33) предлагает первый вариант.] Или какая-то другая мера различий подходит лучше? Вероятно, можно было бы придумать разные процедуры для разных переменных.

Л. Эберхард (Eberhardt, 1976, 1978) обращается к той же проблеме: как оценить воздействие, если есть единственный участок, подверженный воздействию. Его заключения подобны таковым у Р. Грина (1979), т.е. он признается, что лучшим доступным методом исследования является формирование выборок наблюдений типа "прежде/после", "выше по течению/ниже по течению" и т.д. Однако Л. Эберхард высказывает много предостережений, ясно заявляет о статистических трудностях и изобретает адекватно уничижительные термины "псевдоэксперимент" и "псевдоплан" для таких процедур. По его собственным словам:

В настоящее время нельзя гарантировать, что классическими методами статистического анализа можно корректно обработать только пред- и постэкспериментальные данные для одного подопытного участка (1976, р. 321)... Целая формальная технология планирования эксперимента пока что приемлема не в полной мере (1978, р. 210)... [Такая работа] действительно, относится скорее к области планирования выборочной съемки, чем к области планирования экспериментов (1976, р. 32)... Мы пока еще не разработали концепцию псевдоплана до того, чтобы ее можно было эффективно применять на практике. Я даже не уверен, что эта цель выполнима или желательна (1976, р. 35)”.

В качестве первых примеров "оптимального исследования воздействия" могут быть отмечены: лесной эксперимент вблизи местечка Хаббардброк (например, Likens et al., 1970, 1977) и канадские эксперименты по эвтрофикации целого озера (например, Schindler et al., 1971; Schindler, 1974). В этих исследованиях повторности экспериментальных единиц не выделялись и проверка по статистическим критериям (с незначительными исключениями) не использовалась, но все же эффект воздействия управляющих факторов был убедительно продемонстрирован. Статистический анализ не был применен, но его использование не сделало бы результаты более ясными, а выводы – более обоснованными. Хороший выход для всех экспериментаторов, которые не хотят или не могут провести опыт с истинными повторностями, – задействовать прямой и честный подход этих двух выдающихся групп исследователей.

Мнимая повторность во времени

Она отличается от простой мнимой повторности только тем, что совокупности выборок из каждой экспериментальной единицы взяты не одновременно, а скорее последовательно в серии дат (рис. 5С). Даты затем объявляются повторностями воздействия, и применяется критерий значимости. Поскольку последовательные выборки из единственной экспериментальной единицы, очевидно, будут коррелировать друг с другом, потенциал для некорректной оценки эффекта воздействия с такими планами эксперимента очень высок.

Рис. 5. Схематическое представление трех самых распространенных типов мнимых повторностей. Заштрихованные и незаштрихованные квадраты представляют экспериментальные единицы, получающие различные воздействия. Каждая точка представляет выборку или измерение. В каждом примере мнимая повторность – результат оценки эффекта воздействия посредством статистических процедур (например, по t- или U-критерию), которые неявно предполагают, что четыре числа для каждого воздействия взяты у четырех независимых экспериментальных единиц (= повторностей воздействия)

Необходимо отметить, что повторный отбор выборок из экспериментальных единиц и использование таких данных в статистическом анализе может быть при некоторых обстоятельствах весьма объективным. Некорректным является рассмотрение последовательности дат как независимых повторностей воздействия. Примеры временной мнимой повторности могут быть найдены в работах (Cowell, 1965; Clarke, Grant, 1968; Thomas, Seibert, 1977; Abramsky et al., 1979; McCauley, Briand, 1979; Hixon, 1980).

Жертвенная мнимая повторность

Это – результат планирования эксперимента, включающего истинные повторности воздействий, но при этом данные этих повторностей объединены до статистического анализа (см. следующий раздел), или, когда две или больше выборок (групп измерений), проведенных для разных экспериментальных единиц, рассматриваются как независимые повторности (рис. 5B). Информация об изменчивости между повторностями воздействия существует в первоначальных данных, но смешивается с изменчивостью между выборками (в пределах повторности) или вообще отбрасывается прочь, когда объединены выборки из двух или больше повторностей (отсюда термин "жертвенный").

Удивительно, но этот замысловатый подход почти так же распространен, как и простая мнимая повторность. Недавние примеры найдены в работах (Hurlbert et al., 1971; Cameron , 1977; Grant et al., 1977; Virnstein, 1977; Bakelaar, Odum, 1978; Bell, 1980). Существенно то, что все эти исследования имели дело только с двукратными повторностями воздействий. Если бы авторы ограничились корректными статистическими процедурами, то не нашли бы между повторностями никаких существенных различий или эти различия были бы минимальны.

В некоторых из перечисленных работ (например, Grant et al., 1977; Virnstein, 1977) выборки из двух повторностей не были объединены автоматически, а сначала применялся статистический анализ (например, по t-критерию), чтобы проверить значимость различий между двумя повторностями воздействий. Если они не были достоверно различными, это объединение выполнялось. Но “в нескольких случаях, когда повторности были ощутимо различны, каждая повторность рассматривалась отдельно” (Virnstein, 1977).

В любой полевой ситуации мы знаем, что две повторности участков или водоемов не идентичны. И я указывал, что объединение выборок из отдельных экспериментальных единиц не оправдано ни при каких обстоятельствах. Для нас может представлять интерес, насколько примерно различны повторности между собой, но использование статистических критериев значимости различий как повод для объединения выборок выглядит неуместным.

Хи-квадрат (c 2) и мнимые повторности

Оценка по критерию c 2 – одна из наиболее часто неправильно употребляемых статистических процедур. В управляемых полевых экологических экспериментах, рассмотренных мной, он используется нечасто, за исключением исследований по мелким млекопитающим. В таких исследованиях животные обычно ловятся по одному в небольших ловушках, и каждая поимка может быть расценена как независимое наблюдение. В этих условиях критерий c 2 оказывается соответствующим тому, чтобы проверить гипотезы относительно численных соотношений полов, распределения между микроместообитаниями и т.д. Однако, когда он используется направленно, чтобы оценить эффекты воздействий в управляемых экспериментах, употребление c 2 неизменно оказывается неправильным.

Когда воздействия не повторяются и критерий c 2 используется, чтобы сравнить численные соотношения полов одного экспериментального и одного контрольного участков (например, Dobson, 1979; Gaines et al., 1979), снова оценивается только различие в точках отбора проб, а не эффект воздействия. И обычно, если отсутствует понимание этого факта, то в этом эксперименте присутствует "простая мнимая повторность".

Когда выделяются две повторности участков на каждый тип воздействия (Cameron, 1977; Grant et al., 1977; Hansen, Batzli, 1979), то часто данные отлова для этих двух повторностей объединяются, а критерий c 2 применяется к общим количествам. В этом случае имеет место "жертвенная мнимая повторность".

Тогда каков правильный подход? Мы придумали гипотетический пример (табл. 6), чтобы продемонстрировать, что вопреки установившейся традиции критерий c 2 здесь неприменим и необходимо использовать те же статистические компоненты (t- критерий, U-критерий, дисперсионный анализ), которые применяются для оценки эффекта воздействия на такие переменные, как масса тела, фитомасса растительности и т.д.

Процедурная часть эксперимента в табл. 6 заимствована у В. Гранта с соавторами (Grant et al., 1977). Этот пример показывает, как приходят к заключению, что хищничество лис действительно затрагивает численное соотношение полов популяций мышей, тогда как этот предполагаемый результат фактически относится к единственному численному соотношению для участка B2. Когда появляется такой факт, следует предположить, что где-то совершена ошибка.

Таблица 6

Гипотетический пример жертвенной мнимой повторности, следующей из неправильного употребления критерия c 2

Решаемая проблема: Влияет ли хищничество лис на численное соотношение полов популяции мышей?
План эксперимента: Выбирается четыре экспериментальных участка (по 1 га) в большой области, где охотятся лисы; отбираются наугад и огораживаются от лис два участка (A1, A2) (sic!), два других участка (B1, B2) оставляются как средства контроля; через 1 месяц осуществляется оценка плотности популяции мышей на каждом участке.

Результаты отлова

Статистический анализ

Участок

% самцов

Число самцов

Число самок

Лисы есть

A1

63

22

13

Тест на гомогенность по c 2
Результат: c
2 = 0.019, р > 0.50
Итог: объединяем данные (см. ниже)

A2

56

9

7

Лис нет

B1

60

15

10

Тест на гомогенность по c 2
Результат: c
2 = 2.06, р > 0.15
Итог: объединяем данные (см. ниже)

B2

43

97

130

Объединенные данные

Лисы есть

A1 + A2

61

31

20

Тест на гомогенность по c 2
Результат: c 2= 3. 9, р < 0.05
Итог:
лисы влияют на численное соотношение полов

Лис нет

B1 + B2

44

112

140

Объединение является неправильным по четырем взаимосвязанным причинам.

Во-первых, данные о 35 мышах, пойманных в A1, могут быть расценены как 35 независимых наблюдений, так же как о 16 мышах, пойманных в A2. Таким образом, тест на гомогенность по c 2, чтобы сравнить численные соотношения полов этих двух участков, корректен (хотя и не имеет отношения к делу). Но если данные для этих двух участков объединены в общую совокупность из 51 наблюдений, то они перестают быть независимыми, поскольку представляют два скоррелированных множества взаимозависимых наблюдений. Таким образом, объединенный набор данных нарушает фундаментальное предположение, лежащее в основе стандартного испытания по критерию c 2.

Во-вторых, объединение повторяющихся воздействий отбрасывает информацию относительно изменчивости между группами участков. Без такой информации нет надлежащего способа оценить достоверность различий между уровнями воздействий.

В-третьих, в случае применения критерия к объединенным данным неявно переопределяется статус экспериментальной единицы, коими становятся индивидуальные мыши, а не участки поля. Это недопустимо. Обычная (стандартная) процедура объединения (например, Winer, 1971, р. 378-384; Sokal, Rohlf, 1981, p. 285), как правило, не подразумевает переопределения природы экспериментальной единицы. Когда это все же происходит, следует отнестись к такой процедуре с подозрением, поскольку переопределение экспериментальной единицы изменяет исходную проверяемую гипотезу.

В-четвертых, при объединении повторности получают различные веса. Пример в табл. 6 придуман, чтобы убедить Вас на интуитивных основаниях, что такое взвешивание является неподходящим и приводит к некорректным выводам. Отметьте, что мы ничего не сказали о том, равно ли число мышей, отловленных на участке, их существующему в наличии общему количеству, пропорционально доле существующего общего количества, или пропорционально (возможно, переменному) выборочному усилию. Этот вопрос здесь к делу не относится. Средние численные соотношения полов (% самцов) для этих двух воздействий должны быть 59.5% и 51.5% (не взвешенные), а не 61% и 44% (взвешенные). Поскольку мы поймали больше мышей на участке B2, разумно предположить, что у нас есть более точная оценка истинного численного соотношения полов на этом участке. Но нет никаких оснований для предположения, неявно принимаемого в процедуре объединения, что "истинное" численное соотношение полов на участке B2 – лучшая оценка "истинного" численного соотношения полов для воздействия, чем это же соотношение для B1.

Позвольте нам предположить, что вместо того, чтобы изучать численное соотношение полов, мы измеряли массу тела каждого из 143 (= 22 + 9 + 15 + 97) пойманных самцов, и что данные, внесенные в столбец "% самцов" (табл. 6), теперь представляют среднюю массу особи (например, в граммах). Эффект хищничества лис мог бы быть должным образом оценен посредством обычного дисперсионного анализа исходных данных. Этот подход влечет за собой оценку среднего значения показателя для каждого типа воздействия как невзвешенные средние величины показателей по участкам, даже несмотря на то, что объемы выборок изменяются от участка к участку. Дифференциальное взвешивание было бы неоправданным для данных о массе тела, и это является в равной мере неоправданным для численного соотношения полов.

Я полагаю, что единственная приемлемая процедура оценки значимости воздействия для примера в табл. 6 связана с t- или U-критерием. С двукратной повторностью у них нет большой мощности, но все же при этом они не введут в заблуждение.

Заурядность этого факта неправильного употребления критерия c 2 восходит, вероятно, к примерам из книг по статистике, которые слишком часто основываются, например, на генетических объектах, или на измерительных, а не управляемых экспериментах, или на управляемых экспериментах (например, медицинских), в которых индивидуальные организмы – полноценные экспериментальные единицы, а не просто их компоненты, как в процитированных полевых исследованиях млекопитающих. Это действительно кажется нелогичным, когда критерий c 2 можно использовать, чтобы проверить различие численного соотношения полов между двумя совокупностями (измерительный эксперимент), но не может использоваться, чтобы проверить на такое различие между этими двумя совокупностями и двумя другими совокупностями, подвергнутыми различному воздействию (управляемый эксперимент). И все же это, кажется, факт. В то же время я не знаю ни одного учебника по статистике, который обеспечивает ясное и надежное руководство по этому вопросу.

Неявная мнимая повторность

В примерах, обсуждаемых выше, мнимая повторность – следствие некорректного, но явного использования критериев значимости с целью выявления эффекта воздействия. Однако в некоторых управляемых исследованиях, реализующих планы неповторяемых воздействий, но с отбором множественных подвыборок (например, Menge, 1972; Lubchenco, 1980), авторы прямо не применяют критериев значимости, но приводят стандартные ошибки или 95%-е доверительные интервалы наряду со средними и обсуждают предполагаемые результаты воздействия. В таких случаях уместность применения термина "псевдорепликация" зависит от того, насколько осведомлены авторы об ограничениях на свои планы эксперимента. Они могут предварительно признать, что полученные данные фактически неадекватны для того, чтобы оценить эффект воздействия. Однако, если экспериментаторы расценивают свои непересекающиеся 95%-е доверительные интервалы как эквивалент критериям значимости, не делая при этом никакой оговорки, то такие процедуры можно обоснованно назвать "неявной мнимой повторностью."

Представление информации относительно изменчивости в пределах экспериментальных единиц иногда может представлять интерес, даже если воздействия не повторяются. Я полагаю, однако, что наименее вводящий в заблуждение способ – представить стандартные отклонения, а не стандартные ошибки или 95%-е доверительные интервалы. Это поможет подчеркнуть то, что авторы должны признать явно: изменчивость в пределах экспериментальных единиц бесполезна для того, чтобы оценить возможные эффекты воздействий. Объемы выборок могут быть представлены отдельно, что позволит выполнить всем желающим грубое определение стандартных ошибок.

Первородный грех в Ротамстеде

Может кому-нибудь будет приятно узнать, что мнимые повторности – не изобретение современных экологов. Они фактически были впервые использованы непосредственно самим Р. Фишером. У нас, таким образом, есть теологическое оправдание – отец современного планирования эксперимента совершил первородный грех, так что же можно ожидать от таких простых смертных, как мы?

История эта рассказана его дочерью (Box, 1978, р. 110-112; Cochran, 1980). Промах Р. Фишера случился в следующем факторном эксперименте (Fisher, Mackenzie, 1923): изучалось влияние калиевых удобрений (3 типа) и навоза на урожайность 12 сортов картофеля. Экспериментальное поле было разделено на две равные части, одна из которых была удобрена навозом; остальные факторы (калийные удобрения и сорта картофеля) были случайным образом распределены по экспериментальным площадкам в пределах обеих половин поля. По отношению к воздействию от внесения навоза имела место явная сегрегация, но все же Р. Фишер применил дисперсионный анализ для выявления эффекта (и не нашел его). Вскоре он осознал ошибочность такого плана, возможно, под влиянием присланных ему комментариев В. Госсета (Дж. Бокс, личное сообщение). В 1925 г. в первом выпуске Statistical Methods for Research Workers он представил в качестве примера дисперсионный анализ данных, полученных только от удобренной навозом половины поля, умолчав о другой половине и своем первоначальном анализе (Fisher, 1958, р. 236-241).

Статистикам

Мы слушали Ваши курсы; мы читали Ваши книги. Где же Вы ввели нас в заблуждение? Вот некоторые предложения.

1). Включайте в свои книги по статистике краткие, нематематические описания основных принципов планирования эксперимента. Есть превосходные примеры в этом направлении (в частности, Steel, Torrie, 1980), но большинство других авторов этого даже не пробует. Не предполагайте, что большинство студентов, которые хотят стать учеными-экспериментаторами, знакомы с кратким курсом планирования эксперимента.

2). В Ваших книгах по статистике, когда используются примеры, давайте больше деталей относительно физического расположения и поведения экспериментальных объектов, параметры которых подвергаются измерению. Обсудите альтернативные размещения, их справедливость или ошибочность. Процитируйте и обсудите фактические примеры общих видов ошибок обработки данных, таких как мнимые повторности.

3). Хотя большинство статистических методов может быть применено и к экспериментальным данным и к результатам простых наблюдений, подчеркните, что их надлежащее использование в первом случае требует соблюдения ряда условий относительно физического проведения эксперимента.

4). Будьте более трезвыми и подозрительными, когда с Вами консультируются экспериментаторы. Не позволяйте им уговорить Вас на некорректное использование статистического анализа, особенно когда точность требует отказаться от проверки статистических гипотез вообще. Некоторые статистики слишком часто отказываются от тщательной разработки планов экспериментов, принимая на веру настойчивые уверения заинтересованных экспериментаторов об однородности их экспериментального материала или "гарантированном" отсутствии несверхъестественного вмешательства.

5). Когда Вы действительно помогаете с анализом экспериментальных данных, посоветуйте экспериментатору включить в его сообщение детальное описание схемы физического размещения экспериментальных единиц. Если план содержит слабости, рекомендуйте исследователю обсудить их в статье.

Редакторам

Плохо спланированные или неправильно проанализированные экспериментальные работы буквально затопили экологическую литературу. В своем обзоре я показал, что 48% недавних полевых экологических экспериментов в ходе статистического анализа опирались на мнимые повторности. Исследования моих студентов, студентов Г. Инниса (Innis, 1979) и А. Андервуда (Underwood, 1981) подтверждают меру распространения небрежного отношения к статистике. Как это наводнение может быть остановлено?

Можно предложить много способов. Самый очевидный из них – лучшее обучение статистике и планированию эксперимента для всех экологов. Но как это может быть достигнуто быстро и эффективно? Довольно просто. Хотя типичная рукопись статьи рассматривается и критикуется ее авторами, некоторыми из их коллег, несколькими анонимными рецензентами и редакторами, только редактор определяет, будет ли она издана или нет. Если редакторы (все вместе) станут хоть немного лучше осведомлены в статистике и если они возьмут за правило тщательно изучать рукописи для определения немногих распространенных ошибок, кардинальное улучшение в экологической литературе могло бы произойти за 1 - 2 года. Когда основная цель – опубликованная работа, ничто так хорошо не обучает, как редакционное отклонение или требование существенных переделок. Ясно объясненное обоснование отклонений обучило бы больше экологов и более быстро, чем любая общая попытка модернизировать книги или курсы статистики, что находится, в любом случае, вне нашего контроля.

Статистическая изощренность или нехватка ее, не является главной проблемой. По крайней мере, в полевой экологии планы большинства экспериментов просты, и когда ошибки сделаны, они сразу бросаются в глаза. Бывают, конечно, случаи, когда используется правильный и, возможно, сложный план эксперимента и где допущенная ошибка заключается только в некоторой оплошности, "трудно различимой" в статистическом анализе. Такие ошибки трудно найти даже профессиональным статистикам. Их устранение может произойти только постепенно, когда исследователи и редакторы вместе продвинутся дальше в понимании статистики.

Обнаружение большего класса ошибок, включая мнимые повторности в их различных формах, требует умеренного знакомства с элементарными принципами статистики и планирования эксперимента. Нехватка этого со стороны экологов и редакторов – главная непосредственная причина нашего существующего тяжелого положения. Но, возможно, гораздо большее значение имеет тот факт, что в большинстве книг и курсов эти основные принципы так легко теряются из виду среди многочисленных математических аспектов статистического анализа.

Некоторые определенные действия, которые редакторы могли бы взять на вооружение для борьбы с мнимыми повторностями и связанными с ними ошибками, следующие:

1). Настаивайте, чтобы физическое расположение экспериментальных единиц было представлено на рисунке или описано в деталях, достаточных, чтобы читатель мог сделать набросок такого рисунка для себя. Эта информация относительно физического расположения, особенно во многих морских экспериментах, или не предоставлена вообще или дается слишком неопределенно. В таких случаях не может быть оценена корректность плана эксперимента.

2). Определите из схемы расположения, использовались ли в расчете истинные повторности и перемешивание воздействий.

3). Определите процедуру, согласно которой воздействия были назначены экспериментальным единицам. Если при этом не использовались средства рандомизации (простой или ограниченной), то проанализируйте оправдания экспериментатора относительно причин этого. Внимательно отнеситесь (и это в любом случае вопрос субъективный) к возможности того, что выбранная схема распределения уровней факторов по экспериментальным единицам вызывает отклонения или ошибочные выводы в оценке эффекта воздействия. Если процедура обеспечивает хорошее перемешивание воздействий, недостаток истинной рандомизации, возможно, не критичен. С другой стороны, если использование процедур рандомизации привело бы к высокой степени сегрегации воздействий, то потенциал от такой ошибки впоследствии должен быть явно обозначен авторами.

4). Настаивайте, чтобы методы примененного статистического анализа были бы описаны достаточно подробно. Иногда это можно сделать, ссылаясь на определенные страницы в книгах по статистике. Чаще должна быть предоставлена дополнительная информация.

5). Отвергните использование статистических критериев, если они неправильно употребляются. Если их допустимость оправдана лишь частично, настаивайте на оговорках и явном упоминании о слабостях плана эксперимента. Отвергните "неявные" мнимые повторности, которые особенно вводят в заблуждение, поскольку часто скрываются под маской "очень убедительных" графиков.

6) Будьте либеральны в отношении хороших статей, которые воздерживаются от использования статистического анализа, если он не может быть применен корректно. Много описательных и экспериментальных работ попадают в эту категорию. Поскольку озабоченность рецензента или редактора необходимостью количественных выводов иногда совпадает со слепотой к мнимым повторностям, часто легче издать статью, если Вы используете ошибочный статистический анализ, чем когда Вы не используете статистического анализа вообще.

Заключение

Во время обсуждения на заседании Королевского Статистического Общества в 1934 г. г-н Пейдж высказал мнение о том, что “теперь мы прошли длинный путь от позиции бесспорно выдающегося Профессора Сельскохозяйственных Наук, который сказал: "Будь проклята повторность измерений; дайте мне одну делянку, и я скажу, как обстоят дела"” (Wishart, 1934, р. 56). Несомненно, это верно для многих областей сельскохозяйственной науки. Экологи, однако, пошли под звуки другого барабана… Большой процент современных специалистов в экспериментальной полевой экологии были бы, казалось, весьма не прочь хлопнуть этого "выдающегося профессора" по плечу, поставить ему пиво и провозгласить тост за его здоровье. Чтобы продемонстрировать свою современность, они, возможно, добавили бы: “Поскольку эта чертова штука достаточно велика для того, чтобы взять из нее много подвыборок, мы дадим г-ну Фишеру его любимую оценку изменчивости!”

Мнимые повторности – вероятно, самая распространенная ошибка в планировании и анализе экологических экспериментов в полевых условиях. Она, по меньшей мере, одинаково распространена во многих других областях исследований. Надеюсь, что этот обзор будет способствовать уменьшению ее частоты. Устранение этого явления должно быть организационно управляемой и оперативной задачей.

Пояснения и благодарности

Эта статья основана на докладе, сделанном в университете штата Флорида на симпозиуме Wakulla Springs в марте 1981 г. Рукопись была существенно улучшена в соответствии с предложениями К. Чанга (Chang), Б.Д. Кольера (Collier), К.Ф. Купера (Cooper), P.Г. Файвизера (Fairweather), Д.A. Фарриса (Farris), В.Дж. Плата (Platt), A.Дж. Андервуда (Underwood), Д. Вайса (Wise), П.Г. Зельдера (Zedler) и двух анонимных рецензентов. За любые ошибки, которые остаются, всю ответственность несу только я один. Дж.Ф. Бокс любезно предоставила информацию о переписке между В.С. Госсетом и ее отцом, Р.A. Фишером.

Я посвящаю эту статью Линкольну П. Брауеру (Brower), который ввел меня в мир экспериментальной экологии.

Дальше К следующему разделу Начало К началу разделу Список К оглавлению На главную На главную страницу сайта