Дальше К следующему разделу Назад К предыдующему разделу Конец К концу разделу Список К оглавлению На главную На главную страницу сайта

1.2. ПРОБЛЕМА "МНИМЫХ ПОВТОРНОСТЕЙ" В ЭКОЛОГИЧЕСКОМ ЭКСПЕРИМЕНТЕ: ДИСКУССИЯ В РОССИЙСКИХ И ЗАРУБЕЖНЫХ ЖУРНАЛАХ

Основой нашей деятельности всегда является не столько логический вывод, сколько выбор исходных предпосылок. Нам дана возможность ощущать серьезность, правомерность и честность наших решений, а иногда - их героизм. Но дано и ошибаться. И не слишком ли часто Воля к смыслам оборачивается для нас волей к насилию над тем, кто не приемлет наши смыслы?

В.В. Налимов (1989)

Хеффнер Р.А., Батлер М,Дж., Рейли К.К. Снова о мнимых повторностях
Оксанен Л. Логика эксперимента в экологии: является ли мнимой проблемой мнимая повторность
Коттени К., Де Меестр Л.Комментарий к Оксанену: как примирить идеи Л. Оксанена (2001) и С. Хелберта (1984)
Хелберт С. О неверном истолковании мнимых повторностей и связанных с ними проблем: ответ Оксанен
Оксанен Л. Дьявол заключается в деталях: ответ Стиву Хелберту
Козлов М.В. Неверный выборочный план и анализ с мнимыми повторностями: выводы Величкович (2004) подвергаются сомнению
Величкович М.В. Выборочные планы, мнимые повторности и хорошая практика в современной науке: наброски ответа Михаилу В. Козлову и рекомендации ученым-экологам
Козлов М.В. Мнимые повторности (pseudoreplication) в экологических исследованиях: проблема, не замеченная российскими учеными
Татарников Д.В. О методических аспектах постановки экологических экспериментов (Реплика на статью М.В. Козлова)
Козлов М.В., Хелберт С.Х. Мнимые повторности, бесплодные дискуссии и интернациональная сущность науки: ответ Д.В. Татарникову


Heffner R.A., Butler M.J., Reilly C.K. Pseudoreplication Revisited // Ecology. 1996. - V. 77, № 8. P. 2558-2562.

СНОВА О МНИМЫХ ПОВТОРНОСТЯХ

Р.А. Хеффнер, Дж.М. Батлер, К.К. Рейли

В 1984 г. Стюарт Хелберт опубликовал обзор экологической литературы, в котором тщательно исследовал 156 работ, опубликованных за период с 1960 по 1980 гг. на предмет наличия мнимых повторностей. Мнимая повторность определена им как
...проверка статистических гипотез для выявления эффекта воздействия по данным эксперимента, где воздействия не повторяются (хотя выборки могут быть), либо экспериментальные единицы не являются статистически независимыми.

Результаты были ошеломляющими. Из 101 исследования, где применялся статистический анализ, в 48% случаев имела место псевдорепликация. Анализ статистических ошибок, обычных для экологической литературы, представили также Г. Иннис (Innis, 1979) и А. Андервуд (Underwood, 1981). Последний нашел, что 78% статей по морской биологии, из числа рассмотренных им, содержали статистические ошибки дисперсионного анализа того или иного вида. В дополнение к этим обзорам есть многочисленные статьи, которые также предупреждают о неквалифицированной трактовке основных статистических проблем при использовании их экологами-экспериментаторами, включая ошибки I и II рода, мощность критериев и их связь с параметрическими методами оценивания гипотез (Seaman, Jaeger, 1990; Potvin, Roff, 1993).

Истинная повторность относится к наименьшим экспериментальным единицам, к которым независимо применено воздействие. Согласно обзору С. Хелберта (1984), псевдорепликация обычно является следствием неправильной трактовки множества наблюдений над одной экспериментальной единицей как множества разных экспериментальных единиц, или использования экспериментальных единиц, которые не являются статистически независимыми. Смысл этих ошибок в том, что случайные события, непосредственно затрагивающие одну экспериментальную единицу, с большей вероятностью затронут другие экспериментальные единицы в пределах той же группы, чем экспериментальные единицы в других группах воздействия.

Скажем, мезокосм, в пределах которого варьируется некоторая переменная (например, уровень питания), часто соответствует понятию “экспериментальная единица” в исследованиях, использующих эту полезную методологию. Поскольку заданную концентрацию питательных веществ в воде можно достичь, только изменяя условия во всем мезокосме в целом, он – наименьшая единица, к которой независимо применено воздействие. И в соответствие с этим индивидуальные выборки или измерения (например, пробы фитопланктона, взятые из каждого отдельного мезокосма) не являются независимыми повторностями.

Иногда экспериментальные единицы выделить не так легко, как в случае использования естественных выборочных элементов. Например, можно очистить от морских ежей поверхность некоторых валунов и сравнить обилие бентических морских водорослей (источник пищи ежей) в нескольких квадратах на каждом валуне с подобными измерениями, проведенными на валунах "контроля", где ежи продолжают обитать. Здесь экспериментальная единица – множество индивидуальных валунов на одном участке, а не квадраты, в которых были проведены измерения обилия водорослей. Мнимая повторность – "коварная тварь", и, хотя некоторые ее проявления очевидны, есть много более тонких случаев, требующих детального знания изучаемой системы, чтобы избежать ошибки.

Бескомпромиссное описание необходимых фундаментальных принципов планирования экспериментальных полевых исследований и убедительное документирование С. Хелбертом вездесущности псевдорепликации в экологической литературе вызывали отклик среди экологов. Его статья 1984 г. (Hurlbert, 1993) признана научной классикой и была процитирована в более чем 600 опубликованных статей. Американская Статистическая Ассоциация удостоила вклад С. Хелберта премией Снедекора за лучшую статью в области биометрии в 1984 г. Термин "псевдорепликация" включен теперь в словари и биологов, и статистиков.

Цель нашей статьи состоит в том, чтобы оценить текущее состояние явления "мнимой повторности" в экологических экспериментах. Мы рассмотрели экспериментальные планы полевых экологических исследований из 892 статьей, опубликованных в течение 1991 и 1992 гг. в тех же самых известных экологических журналах, которые в 1984 г. использовал С. Хелберт. 119 (или 13%) из этого числа соответствовали нашим критериям как управляемого полевого эксперимента с использованием проверки статистических гипотез, т.е. количество анализируемых нами статей соответствовало объему выборки (n = 101), располагаемой С. Хелбертом (1984).

В 14 статьях из 119 (или 12%) нами было установлено использование мнимых повторностей. Это заметно ниже, чем уровень (48%), который обнаружил С. Хелберт десятилетием ранее, но встречаемость псевдорепликации и сегодня остается ошеломляюще высокой. Еще три дополнительных исследования были помещены в категорию, которую мы называем "сомнительной псевдорепликацией". Это наше решение – не уход от ответственности, а скорее свидетельство существования действительно серой области в пределах текущего определения “мнимой повторности”.

Почему еще существует мнимая повторность? Тут есть несколько причин. Ряд авторов, которые ответили нам, не читали статьи С. Хелберта и, по всей видимости, вообще незнакомы с проблемами планирования эксперимента и статистики. Другая вероятная причина – в широко распространенном мнении, что статистический анализ придает исследованию некоторую меру количественной строгости, и авторы стараются его использовать, даже если экспериментальные данные являются непригодными для такого анализа. В лучшем случае, такие расчеты приводят к неопределенному статистическому результату, так как "эффект воздействия" не может быть статистически отделен от "эффекта территориального местоположения".

Некоторые авторы привели доводы в пользу объективной необходимости и самодостаточности неповторяемых экологических исследований (Hawkins, 1986; Carpenter, 1990). И мы готовы признать, что некоторые исследования без повторностей могут быть корректно проанализированы с использованием таких статистических методов, как анализ временных рядов (Jassby, Powell, 1990), численный ресамплинг (Crowley, 1992), ANOVA (Underwood, 1994), или методов, основанных на байесовском подходе (Reckhow, 1990).

 


Oksanen L. Logic of experiments in ecology: is pseudoreplication a pseudoissue? // Oikos. - 2001. - V. 94. - P. 27-38.

ЛОГИКА ЭКСПЕРИМЕНТА В ЭКОЛОГИИ: ЯВЛЯЕТСЯ ЛИ МНИМОЙ ПРОБЛЕМОЙ МНИМАЯ ПОВТОРНОСТЬ?

Л. Оксанен

Текущее отношение экологов к экспериментальной работе находится под влиянием статьи С. Хелберта (1984), подчеркивающей необходимость истинных повторностей. Смысл статьи может быть выражен в трех следующих пунктах:

  1. В неповторяемом эксперименте невозможно установить причинные связи, поскольку на процесс выявления эффекта воздействия накладывается пространственно-временная изменчивость системы.

  2. Логически корректное выявление причинной связи может быть искажено различными комбинациями посторонних факторов (например, изменением состава биомассы в одной камере роста в ходе одного и того же эксперимента), поэтому в любом случае есть альтернатива объяснения, казалось бы, очевидного эффекта воздействия.

  3. Использование статистического анализа без истинной повторности неинформативно, потому что нулевая гипотеза об идентичности двух статистических совокупностей в тривиальном случае неверна для живой природы.

Термин "мнимая повторность" используется как клеймо для экспериментальных исследований, где результаты статистического анализа использовались в контексте неповторяемых или смешанных многофакторных воздействий.

С. Хелберт осознает, что “во многих случаях полевого управляемого эксперимента повторность часто невозможна или нежелательна”. В других частях статьи он забывает об этих своих выводах и отсутствие истинной повторности рассматривает лишь как следствие незнания. Однако вопреки его собственной классификации (p. 193) можно было бы сказать, что экспериментальные экологи попадают прежде всего в две группы: (1) те, кто не видит проблем с сокращением пространственных и временных масштабов и идет на это, чтобы получить повторность, и (2) те, кто понимает, что эксперименты должны быть проведены в пространственно-временных масштабах, релевантных поставленной задаче, и, насколько это возможно, повторяют эксперимент в пределах этого ограничения (Carpenter, 1992, 1996). Рационально мыслящий ученый обязан попытаться проанализировать сложные проблемы и компромиссы, с которыми он неизбежно сталкивается, проверяя гипотезы относительно динамики крупномасштабных систем.

Принятые компромиссы при исследовании крупномасштабных систем

Цель и подходы

Большинство ученых соглашается, что лучшая гарантия прогресса – нерегулируемый поиск истины, ведомый человеческим любопытством. Если бы мы заботились только о наших публикациях в престижных журналах, мы бы работали только с такими проблемами и системами, где экспериментирование простое и дешевое. Однако человеческое общество, оплачивающее наши счета, ожидает, что наше исследование, ведомое любопытством, приведет также к полезным результатам. От "рассвета" нашей науки (Cajander, 1916) до настоящего момента (Power, 2001) социально настроенные экологи утверждали, что первичная задача экологии состоит в том, чтобы обеспечить научную основу для рационального и устойчивого использования природных ресурсов с целью защиты биологического разнообразия и других бесценных аспектов природы. В соответствии с этим исключительно важная задача состоит в том, чтобы понять динамику крупномасштабных экосистем, от которых зависит наше существование. Для некоторых экосистем (например, рек; см.: Power, 1990) изучение основных проблем можно выполнить в ограниченных пространственно-временных масштабах, для других – это невозможно.

Научные и природно-хозяйственные задачи эксперимента в крупномасштабных системах могут быть реализованы, по крайней мере, четырьмя различными способами. Во-первых, мы можем использовать микрокосмы, где исследуются небольшие организмы с высокой скоростью метаболизма, как модели крупномасштабных систем. Во-вторых, мы можем сосредоточиться на предсказаниях, проверяемых в пределах ограниченного пространственного масштаба или относящихся к начальным стадиям долгосрочной динамики. В-третьих, мы можем повторять контроль, но оставить воздействие неповторяющимся. В-четвертых, мы можем провести неповторяемый эксперимент. В случае четвертой альтернативы экспериментатор может или (4a) воздержаться от использования статистических критериев, или (4b) "псевдореплицировать" эксперимент, вычисляя явным или скрытым образом статистические показатели, которые оценивают количественные различия между воздействием и контролем. Статья С. Хелберта была прежде всего критическим анализом альтернативы (4b). Чтобы получить более объективную перспективу, полезно также посмотреть на ограничения других альтернатив.

Альтернатива 1: эксперименты с микрокосмами

Из-за ее технической выполнимости, эта альтернатива в настоящее время весьма популярна. Иллюстративным примером мощности и ограничений этого подхода является история “конкурентного исключения”. Изначально этот принцип был сформулирован А. Каяндером (Cajander, 1916), который осознал огромное различие в регулярности лесной растительности между Сибирью и тем, что тогда было западными частями Российской империи. Он утверждал, что найденная обособленность растительных сообществ в Сибири является следствием конкурентного исключения в ненарушенной окружающей среде, и способности различных подчиненных видов выживать при различных видах-доминантах. Принцип конкурентного исключения был быстро воспринят в Северной Европе, возможно, потому, что сформированная таким образом идея дискретных растительных ассоциаций была тем, что хотели услышать фитоценологи. Прорыв в англоговорящем мире случился три десятилетия спустя благодаря эксперименту Г.Ф. Гаузе (Gause, 1934) на микрокосмах, где процессы, формирующие сибирскую тайгу в ходе столетиями длящейся борьбы за существование, могли быть воспроизведены за несколько дней. Правда, результаты Г.Ф. Гаузе не доказывали, что земная растительность обычно формируется в процессе пошаговой адаптации к экологическим градиентам методами конкурентного исключения отдельных видов из числа потенциальных видов-доминантов.

Эксперименты с микрокосмами – естественный и потенциально очень выгодный мост между математическим моделированием и эмпирическими испытаниями в крупномасштабных наземных и водных системах. Разумеется, пространственный масштаб и свойства растений и животных могут влиять даже на фундаментальные принципы структуры сообществ. Поэтому после получения подтверждающих результатов на микрокосмах должны следовать эксперименты с действительными природными экосистемами. Если это не происходит, наши взгляды о динамике крупномасштабных систем могут зависеть, прежде всего, от изменяющейся моды и от искусства дебатирования ученых. С. Карпентер (Carpenter, 1996) утверждает, что технические преимущества изучения микрокосма создают риск, что экология деградирует к "микрокосмологии", которая потеряет контакт с проблемами крупномасштабных систем. Однако господство лабораторных исследований на микрокосмах достигло максимума в 1960 г. и пошло с тех пор на спад (Ives et al., 1966). Это указывает, что эксперименты с микрокосмами сохранили свою функцию поддержки и "не съели" полевую экологию.

Альтернатива 2: изучение краткосрочной динамики и индивидуального поведения

Эта альтернатива стала популярной, когда осознали неосуществимость управляемых экспериментов по изучению полной динамики развития крупномасштабных систем (вероятно, из-за воспринятой потребности в повторностях), однако много экологов все еще хотели работать с макроскопическими системами. Хорошие примеры предоставлены оранжерейными экспериментами по воздействию особей полевок на травяную арктическую растительность (Moen et al., 1993) и “экспериментами с огораживанием” по кратковременному воздействию дополнительной пищи и сниженного пресса хищников на динамику популяции мелких грызунов (Desy, Batzli, 1989).

Исследования, перечисленные выше, представляют серьезные и частично успешные работы непосредственно с целевой системой в пределах ограничений, установленных желанием повторять эксперимент, с одной стороны, и выделенным финансированием, - с другой. Однако они также иллюстрируют ограничения альтернативы (2). Нет никакой гарантии удовлетворительного прогноза процессов по краткосрочной динамике или по наблюдениям в системах с сильно урезанными пространственными масштабами. Таким образом, этот метод также должен быть расценен как промежуточный шаг. Альтернатива (2) может помочь нам в том, чтобы отбросить некоторые предположения, но все равно может остаться несколько конкурирующих гипотез и борьба между ними может перейти из экспериментального русла в дискуссионное, если мы не готовы двигаться дальше, когда потенциал альтернативы (2) исчерпан.

Альтернатива 3: сравнение единственного подопытного объекта с повторяющимися контрольными

Если главная проблема – высокая стоимость воздействия, то естественным решением является сделать воздействие неповторяемым, но повторять контрольные измерения. Имея n контрольных групп и одну экспериментальную, мы получаем n - 1 степеней свободы для того, чтобы проверить статистическую гипотезу, что оцениваемый эффект является лишь проявлением случайной вариации в пределах пространственного масштаба, где проводится эксперимент. Если подопытный объект был случайным образом выбран из статистически однородной совокупности и если он становится статистическим выбросом после того, как проведен эксперимент, существование статистически значимого эффекта воздействия можно считать установленным. Технически правильный пример этого подхода – исследование воздействия хищничества на прибрежные популяции леммингов (Reid et al., 1994).

Есть некоторые ограничения к использованию этой альтернативы. Многие статистические методы требуют оценки дисперсии и для контроля, и для воздействия. Но за этим техническим вопросом стоит более фундаментальная проблема. В принципе, воздействие может влиять на среднее статистической совокупности, ее дисперсию или на то и другое. В отсутствии повторяемых воздействий что-нибудь сказать об этих вариантах невозможно. Пусть, например, мы сравниваем динамику популяций между повторяемыми группами контроля и одной (неповторяющейся) группой, на которую направлено воздействие путем удаления хищника (predator exclosure). И хотя удаление хищника приводит к максимальным значениям численности и выживаемости по сравнению с группами контроля, но статистический анализ не гарантирует заключения, что воздействие увеличило именно среднюю численность и выживаемость. Тот же самый результат мог бы быть получен, если удаление хищника увеличило бы пространственную изменчивость численности и выживаемости, а наблюдаемые значения просто оказались в верхнем хвосте статистической совокупности. Когда Д. Рейд с соавторами (Reid et al., 1994) констатируют, что исключение хищника оказывает сильное положительное влияние на выживаемость леммингов, заключение фактически получено из комбинации статистического и экологического рассуждения. Статистические данные говорят, что воздействие имеет эффект. Экологические аргументы предполагают что, если удаление хищника производит эффект, то это, вероятно, будет отражаться на средних значениях коэффициента выживаемости, а не на пространственной его изменчивости. Различие по сравнению с логикой псевдорепликации (см. ниже) – только в том, что в цепи аргументов экологическое рассуждение выходит на сцену на более поздней стадии.

Альтернатива 4: провести неповторяемый эксперимент

Во многих исследованиях, связанных с крупномасштабными экологическими системами и большими организмами, высокая стоимость воздействия – не единственная проблема. Могут быть значительными затраты на организацию наблюдений над контрольными объектами. Проблема получения истинной повторности особенно велика, если гипотеза, которая будет проверяться, предсказывает, что характеристики экологических процессов изменяются вдоль главных экологических градиентов. Поскольку эти градиенты имеют тенденцию быть направленными весьма непредсказуемым образом, их истинная повторность почти невозможна. Есть способ ввести в заблуждение рецензентов и читателей, который состоит в том, чтобы выбирать участки для воздействия случайным образом. Это может выглядеть безукоризненно, но тогда вся мощь статистики сосредотачивается на решении единственного вопроса: насколько велики неучтенные пространственные различия в экологических процессах, которые мы изучаем (Underwood, 1997).

В отсутствии повторности у нас есть два следующих выбора:

Критический анализ С. Хелберта был направлен не против проведения неповторяемых экспериментов, а прежде всего против использования статистического анализа в этом контексте.

Самой очевидной альтернативой является использование байесовской стратегии (Press, 1989). Работая с черным ящиком, байесовская статистика предоставляет возможность определить значение элемента неожиданности, который является сущностью всех хороших экспериментов. Проверяемой гипотезе назначается априорная вероятность, и вероятность предполагаемого ответа оценивается для двух случаев: при условии, что гипотеза верна, и при условии, что гипотеза ложна. По правилам исчисления вероятностей мы тогда можем оценить апостериорную вероятность гипотезы при различных вообразимых результатах эксперимента. Хорошим можно считать тот экспериментальный проект, где различные возможные результаты или приводят к значениям апостериорной вероятности гипотезы, близкой к нулю (опровержение), или достигают большими шагами единицы (твердое подтверждение). В субъективном контексте – планируя эксперименты и рассматривая предложенные гранты и рукописи – я нашел байесовскую статистику полезной. Однако как объективный метод, байесовская статистика проблематична из-за субъективных элементов, заключающихся в оценках априорных вероятностей. Предложенный метод состоит в том, чтобы опросить коллег, знакомых с рассматриваемой системой. Легко видеть, насколько уязвима эта процедура. Следовательно, байесовский подход следует, видимо, рассматривать как полезный только в частных целях.

Что касается традиционной проверки статистических гипотез, С. Хелберт утверждает, что ее использование в случае неповторяемых экспериментов, по сути, ошибочно, потому что в отсутствии повторностей статистика может только сказать нам, есть ли пространственные различия в природе, о чем мы, так или иначе, знаем и без этого. Любопытно, что сообщение С. Хелберта не проникло в мир описательных исследований, где статистические тесты пространственных и временных различий все еще проводятся в большом количестве. Эта "ошибка" не предотвратила их публикацию в ведущих журналах. В период 1985-1995 гг. большая и устойчивая фракция (приблизительно 20%) экологических статей, изданных в трех самых влиятельных экологических журналах, была описательной (Ives et al., 1996). Обсуждая использование и злоупотребление статистическим анализом, С. Хелберт забывает, что проверка гипотез не только отвечает на вопрос, могут ли быть две статистических совокупности расценены как различные. Статистические критерии позволяют нам также оценивать, каковы должны быть минимальные различия между двумя статистическими совокупностями, можно ли рассматривать их временную динамику как расходящуюся, и многое другое. При отказе от использования статистики автор просто представляет свои выборки и просит читателя вслепую поверить, что закономерности, наблюдаемые на выборках, действительно отражают закономерности в генеральной совокупности. Таким образом, необоснованное отсутствие обобщающих статистик – не более чем грубость по отношению к читателю.

Если эксперимент не повторяется, нет никакой возможности строго статистически установить связь между эффектом и очевидным воздействием. Но вполне можно количественно проанализировать временную и пространственную изменчивость измеряемых переменных в пределах воздействия и контроля. Такой анализ дает нам возможность ответить на вопрос, будут ли динамические траектории показателей, начинающиеся в этих двух областях, расходиться во время проведения эксперимента. В классических работах Menge (1972) и Paine (1966, 1974) по экосистемам приливной зоны это было сделано немного неуклюже: показано, что перед началом эксперимента подопытные и контрольные объекты можно было отнести к единой генеральной совокупности, тогда как позже различие между этими двумя группами стало существенным при том же самом объеме выборок. Как правильно указал С. Хелберт, авторы, конечно, найдут статистически существенные различия между подобластями даже в первоначальном состоянии, лишь бы только их выборки были бы достаточно большими. Более уместно признать, что никакие две биологических системы не могут быть идентичны, и нет смысла задаваться вопросом о количественной мере этих различий до и после начала эксперимента.

Методы ответа на поставленный вопрос обсуждались несколькими авторами (Osenberg et al., 1992; Stewart-Oaten et al., 1992; Carpenter, 1993). Большая часть предложенных методов основана на последовательных оценках меры различий между двумя статистическими совокупностями до и после начала эксперимента, при условии, что интервал отбора проб превышает масштаб автокорреляции в наборе данных. Статистические проблемы, затронутые в статьях, проистекают из неуверенности в определении необходимого временного интервала, и из того факта, что оцениваемые различия между статистическими совокупностями зависят от ошибки выборочного обследования. Другой, более консервативный метод предлагает оценить доверительные интервалы математических ожиданий двух выборочных совокупностей перед экспериментом и по его завершению. При этом сравнивается максимальная оценка различия между средними перед воздействием с минимальной оценкой различия после воздействия.

Какой бы метод не выбрал исследователь, логика "классической псевдорепликации" может быть представлена следующим образом. Пусть:

Согласно основным правилам исчисления вероятностей мы получаем:

po = 1 - (1- pv)(1 - pl) = pv + pl - pv pl .         (1)

Значение pv получается в результате проверки статистических гипотез, как показано в общих чертах выше. Оценка pl должна быть сделана, исходя из анализа биологических аспектов, включая и особенности объекта. В тех случаях, когда опытные экологи полагают, что pl » 0, значение po оценивается непосредственно из статистического анализа.

Оценка альтернатив

Из альтернатив, обсуждаемых выше, только одну (4a) можно считать не слишком оптимальной. С наличием повторности или без нее статистический анализ помогает читателю отличить закономерность от вариативности и обеспечивает объективную оценку для pv. Следовательно, решение воздержаться от использования статистических критериев в контексте неповторяемых экспериментов столь же нерационально, как решение путешественника не использовать тропу вообще, если он знает, что тропа заканчивается, немного не доходя до цели путешествия. У всех других альтернатив есть свои сильные стороны и своя область применения. Альтернатива (1) представляет собой естественный первый шаг. Альтернатива (2) является потенциально полезной для следующей стадии, при условии, что прогнозы относительно проверяемых гипотез не слишком отличаются по своим пространственным и/или временным масштабам. В конечном счете, однако, нужно идти дальше к крупномасштабным экспериментам. В этом контексте истинная повторяемость - идеальный путь для каждого ученого. Однако организация, ассигнующая деньги на исследование, должна дважды подумать, прежде чем дать полное финансирование предложения, которое является чрезвычайно дорогостоящим из-за объединения результатов экспериментов, повторяемых в больших пространственных и временных масштабах. Как считает С. Карпентер (Carpenter, 1992), наше коллективное продвижение по пути прогресса было бы более успешным, если бы ресурсы были ассигнованы большему числу неповторяемых экспериментов. Это обеспечило бы материал для мета-анализа, а большое число локальных экспериментов дало возможность осуществить объективный выбор экспериментальных систем.

Приставку "псевдо-", столь неосторожно занятую Хелбертом, гораздо разумнее было бы использовать по назначению и ограничить использование термина "псевдорепликация" к ситуациям, когда экспериментатор пытается дать ложную картину плана эксперимента. С другой стороны, можно применить финскую пословицу и утверждать, что сам по себе термин не порочит подход, если исследователи, использующие подход, не порочат используемый термин. Назовите это "псевдорепликацией" или как-то иначе, но, независимо от Вашего желания, неповторяемое испытание сильных и оригинальных научных решений, вероятно, будет более поучительным, чем хорошо повторенное подтверждение слабых и тривиальных идей, а вычисление статистических критериев является только любезностью по отношению к читателю.

Эпистемологическая методология

Эпистемологическая позиция С. Хелберта

Раскрывая философию С. Хелберта (1984), следует отметить, что даже группы, объединенные какой-то физической надстройкой жизнеобеспечения (случай B-4 на рис. 1 в статье Хелберта), были расценены им как мнимые повторности. Он, действительно, прав в том, что невозможно статистически корректно выявить причинно-следственную связь в инкубаторном эксперименте, когда один и тот же инкубатор используется для воспроизведения одного набора факторов. Однако эту линию рассуждения можно продолжить далее. Одной из проблем любого эксперимента является то, что статистически существенные различия между воздействием и контролем могут появиться из-за непреднамеренных побочных эффектов воздействия. Когда мы проводим эксперимент, то неизбежно проделываем все возможное, чтобы исключить воображаемый посторонний фактор. Иногда непреднамеренные побочные эффекты очевидны, но чаще их достаточно трудно обнаружить. Классическим примером невозможности устранить даже те побочные факторы, о которых хорошо знают экспериментаторы, является “эффект огораживания”, характерный для экспериментов с блокированием хищника. Помимо исключения хищников мы нарушаем интенсивность передвижения добычи, что может привести к изменению динамики популяции.

Позвольте нам остановиться на этом. Если понятие "псевдорепликация" используется в столь широком смысле, то все эксперименты так или иначе связаны с мнимыми повторностями, хотя у нас не всегда есть достаточно информации, чтобы понять механизм этой связи. В прикладных исследованиях это не имеет значения, потому что окончательная цель экспериментов состоит в том, чтобы установить статистическую связь между воздействием и результатом. Экспериментатора в первую очередь интересует, насколько конкретное воздействие (например, удобрение полей и лесов, лечение людей) помогает в достижении некой социальной цели (рост урожайности, сохранение здоровья населения). К этому вопросу можно рационально приблизиться путем повторяемого эксперимента, поскольку первичный интерес состоит именно в установлении статистической связи, тогда как причинная интерпретация имеет вторичное значение и может быть получена в рамках преобладающей парадигмы (рис. 1). Однако фундаментальное открытие Карла Поппера (1933, 1934) состоит в том, что причинная связь никогда не может быть надежно установлена ни по какому, сколь угодно большому набору экспериментальных данных. Следовательно, как базовый метод познания в науке, индукционизм был мертв в течение многих десятилетий, и его ренессанс в экологии в 1984 г. действительно удивителен.

Рис. 1. Логика индуктивного эксперимента. Твердый статистический вывод требует наличия и повторности, и рандомизированного отбора проб по всей статистической совокупности. Причинная интерпретация возможна на основе интерпретации контраста между воздействием и контролем в свете преобладающей парадигмы

Стратегия Байеса в экспериментальной работе

Доминирующей эпистемологией науки является гипотетико-дедуктивный подход, в котором можно выделить два основных варианта: версия Т. Байеса, которая основана на подтверждении, в некотором смысле, маловероятных предсказаний, и версия К. Поппера, в которой основное внимание уделяется фальсификации. Было бы естественно начать с байесовского подхода (Russell, 1943) и по историческим причинам и потому, что классические работы по экологическим сообществам были написаны в байесовском духе (см. ниже). Однако относительно общей структуры научного процесса соглашаются защитники обоих вариантов. По определению, эмпирические науки нуждаются в эмпирической основе – или в форме конфликтов между предсказанными и наблюдаемыми данными или в форме ранее не обнаруженных или не объясненных экспериментальных фактов. Сформировав эти эмпирические предпосылки и объединив их с существовавшим ранее сводом подтвержденных теорий, ученый генерирует новые гипотезы, которые формализуются, чтобы стал возможен строгий анализ их логической структуры и дедуктивный вывод эмпирических следствий.

Эти следствия, называемые предсказаниями, должны касаться всех элементов, принадлежащих к четко очерченной категории. Нормальная задача эксперимента состоит в том, чтобы создать ситуацию, когда предсказанные и наблюдаемые отклики элементов можно подвергнуть сравнению. Поскольку предсказания касаются всех элементов, поведение каждого отдельного элемента предоставляет адекватный тест.

В принципе, у эксперимента нет никакого логического приоритета перед спонтанными экспериментальными ситуациями, и ни повторность, ни контроль не составляют необходимых условий критического эксперимента. Действительно, самый знаковый "эксперимент" прошлого столетия – искривление орбиты Меркурия гравитационным полем Солнца – был спонтанной экспериментальной ситуацией, которой никак не управляли и которую не повторяли в других астрономических системах.

В то же время рационально иметь контроль всякий раз, когда это выполнимо, потому что контроль позволяет организовать проверку надежности систем измерения и обеспечивает ясную визуализацию аберрантной природы отклика. Контроль служит также “эталоном пустого воздействия”, посредством которого экспериментатор может продемонстрировать, что многочисленные побочные эффекты воздействия не оказывают влияния на отклик системы. Если и подопытные и контрольные объекты ведут себя аналогичным образом, предсказанным для воздействия, эксперимент следует считать технической неудачей, поскольку очевидно, что отклик системы обусловлен случайными обстоятельствами или побочными эффектами воздействия. Поскольку фактически все экосистемы подвержены случайным, часто очень существенным изменениям, контроль действительно можно считать необходимой частью экологических экспериментов. Повторность логически необходима, если наблюдаемая фоновая изменчивость является и достаточно большой и достаточно гетерогенной в пространстве, чтобы потенциально превысить предсказанный контраст между воздействием и контролем. Логическая структура экспериментальной проверки эмпирических предсказаний иллюстрирована рис. 2.

Классические эксперименты над экосистемами, расположенными в приливной зоне, были проведены в байесовском духе. Они основывались на абстрактных идеях об экологических процессах – конкуренции между организмами, лежащими в основании трофической цепи (Connell, 1961), или конкуренции между хищниками (Menge, 1972), или влиянии хищников и травоядных на конкурентные взаимоотношения между базовыми популяциями трофической сети (Connell, 1961; Paine 1966, 1974, 1980; Lubchenko, 1980). Тогда эти идеи были впервые связаны с наблюдаемыми пространственными закономерностями в структуре сообщества и с общими экологическими законами (Turchin, 2001).

Вместо того чтобы служить примерами ошибочного использования статистических критериев, эти "псевдореплицированные" эксперименты спланированы и изложены в полном соответствии с основными принципами гипотетико-дедуктивной науки. В свете байесовской теории легко понять, почему такие "нестрогие" исследования оказали такое огромное влияние на формирование наших понятий об экологии сообществ и почему они обсуждаются в качестве примеров в классических текстах по экологии (например, Begon et al., 1996).

Рис. 2. Логика эксперимента, проведенного в духе гипотетико-дедуктивной эпистемологии. Предсказания относительно поведения всех систем, относящихся к некоторой четко очерченной категории, дедуцируются (выводятся) из гипотезы. Типичное предсказание утверждает, что в результате воздействия "А" любой объект категории должен изменить свое состояние на "В". Причем такой переход должен иметь крайне малую вероятность возникновения вследствие обстоятельств, не связанных с проверяемой гипотезой (например, из-за экологической стохастичности). Если такой переход происходит в экспериментальной системе, подвергнутой условиям "А", но не происходит в контрольной системе, подвергнутой "пустому воздействию", гипотеза подтверждается. Если переход в состояние "B" не наблюдается в условиях "А", гипотеза фальсифицируется независимо от того, что происходит с контрольной системой. Если переход в состояние "B" наблюдается в обеих системах, эксперимент представляет собой техническую неудачу (нежелательные побочные воздействия, вероятно, объясняют полученный эффект)

И при этом не высказываются какие-либо протесты по поводу недостатков в планировании эксперимента. Во-первых, проверяемые предсказания оказались истинными. Они были сформулированы до эксперимента, что предотвращает избирательное фокусирование на каких-либо отдельных аспектах. Во-вторых, предсказания оказались сильными. При несоответствии результатов предсказаниям осталось бы мало сомнений в справедливости исходной гипотезы. В-третьих, предсказания оказались важны, т.е. они имели очень низкую априорную вероятность подтверждения. В байесовской стратегии эти три признака плодотворной эмпирической деятельности можно объединить в единственный основной принцип: хорошим следует считать такое эмпирическое (управляемое или измерительное) исследование, в котором достигается большое различие между априорной и апостериорной вероятностями проверяемой гипотезы. Мы не должны волноваться о спорных аспектах байесовского подхода на том основании, что априорная вероятность гипотезы не равна нулю, потому что априорная вероятность гипотезы – не более, чем масштабирующий фактор.

Байесовский подход был подвержен серьезной критике. Центральный ее аргумент – вероятность любой гипотезы оказаться истинной всегда равняется нулю (Popper, 1963; Lakatos, 1972), а нуль, умноженный на любое число, остается нулем. Этот аргумент получен из предположения, что каждая гипотеза выделяется из бесконечной совокупности логически последовательных и опытным путем проверяемых гипотез. Потому, выбрать абсолютно верную гипотезу представляется настолько же невероятным, как и обнаружить физическую константу с целым значением. Такая аргументация основана на опыте физических наук, где объекты и теории (такие как элементарные частицы и орбиты электронов) крайне далеки от реальных наблюдений ученого-эмпирика. В экологии такое расстояние гораздо меньше: мы реально можем наблюдать хищника, убивающего добычу. Так, изучая смертность, вызванную хищничеством, фактически можно было бы выделить несколько десятков воздействующих факторов, но не очевидно существование бесконечно большого множества альтернативных объяснений для каждого наблюдаемого сценария. Если бесконечность заменить каким-нибудь сколь угодно большим вещественным числом, вышеупомянутый аргумент разваливается, и байесовская сходимость к истине становится действительной возможностью.

Эволюционная эпистемология фальсифицирования

Философы науки согласны с тем, что байесовский подход – шаг вперед от индукционизма, но необходимы дальнейшие шаги, чтобы обеспечить логически защищенную структуру базиса науки. Пути такого выбора активно обсуждались в 1960-1970-х годах, и основные труды, изданные тогда, сохраняют свою актуальность. К. Поппер (1963) настаивает, что эволюция в процессе постоянных проб и ошибок – единственный логически защищенный путь прогресса. При этом подтверждение любой теории – частный и временный полуфабрикат эмпирического испытания, в то время как только фальсификация действительно дает нам что-то новое. Теоретические предположения и высказывания создают свежие идеи (как мутации создают новые гены), в то время как фальсифицирование устраняет те из них, которые непригодны или нежизнеспособны.

Главный аспект критики идей Поппера заключается в том, что строгий процесс фальсификации столь же полезен для эволюции идей, как полномасштабная ядерная война для эволюции биоты: фактически все было бы уничтожено (Kuhn, 1970). Как альтернативу Т. Кун предлагает, чтобы ученые сконцентрировались на ключевых направлениях эмпирического доказательства в некоторой преобладающей структуре теорий (парадигме). Это предложение широко открывает дверь для догматизма, который может оказаться в экологии полностью бесконтрольным и мало привлекательным.

Более уравновешенную версию фальсификационизма высказывает И. Лакатос (1972), который прибавляет к эволюционной картине К. Поппера иерархическую структуру предположений. В его версии оказывается чрезвычайно важным вопрос: имеется ли другая, конкурирующая исследовательская программа, генерирующая большее число подтверждаемых предположений? В биологических терминах И. Лакатос заменяет попперовский "естественный отбор посредством ядерной войны" нормальной борьбой за существование, ведущей к постепенному конкурентному вытеснению некоторых исследовательских программ, либо к их сосуществованию, если каждая программа находит собственную нишу.

Впрочем, различия между сложным фальсификационизмом И. Лакатоса и подходом Т. Байеса имеют небольшое значение для практических проблем планирования эксперимента. Фраза "низкая априорная вероятность подтверждения" означает, что коллеги, которые знают эту экосистему, либо незнакомы с новой гипотезой, либо считают ее нереалистичной, и ожидают, что наблюдаемые результаты будут отличаться от предсказанных. Однако эти ожидания экологов-экспертов происходят из их видения природы и подвержены влиянию общепринятых теорий. Следовательно, подтверждение неправдоподобных предсказаний одной гипотезы почти автоматически означает фальсификацию другой. Например, эксперименты, выполненные в приливной зоне и осмысленные на основе байесовского подхода, подтверждают истинные, сильные и важные выводы теории Каяндера-Гаузе, оказавшей глубокое влияние на понимание соотношений обилия в экологическом сообществе и отношения между структурой сообщества и экологическими градиентами. Согласно этой теории сообщества образуют истинные ассоциации, в которых биотические взаимодействия исключают большое число видов, потенциально способных выжить в текущей физической среде. С другой стороны, эти же результаты могут быть отмечены как фальсификация гипотезы континуума, согласно которой изученные сообщества – лишь случайные множества сосуществующих организмов, чьи закономерности распределения обилия вдоль экологических градиентов отражают отношения между физической средой и индивидуальными оптимумами каждого вида (Gleason, 1926; Whittaker, 1975). Другими словами, сильное подтверждение одной гипотезы и, по крайней мере, неявная фальсификация другой – две стороны одной и той же медали.

Заключение

Общие замечания

Планирование эксперимента – тактическая проблема, которая не может рационально обсуждаться без предварительной стратегической установки: проводить ли исследование в дедуктивном или индуктивном духе. У обоих подходов есть своя роль в науке. Индуктивные эксперименты могут обеспечить новые, неожиданные результаты. Используя эволюционную аналогию, такие эксперименты могут быть расценены как активные центры многообещающих мутаций, а сами экспериментальные испытания в свою очередь усиливают борьбу существования между гипотезами, увеличивая вероятность того, что только наиболее приспособленные из них останутся в живых. Логика индукции требует повторности, как указал С. Хелберт (1984).

Если эксперимент основан на дедуктивной логике, правила игры полностью отличаются и, как было объяснено выше, повторность не является основным элементом плана эксперимента. Особенность состоит в том, что использование тех результатов, которые непосредственно не связаны с предсказаниями, незаконны в этой логической структуре. Цель дедуктивного эксперимента состоит не в том, чтобы обеспечить базис для индукции гипотез из данных, а чтобы дать возможность экспериментатору поставить отметки “да” или “нет” в заготовленном до эксперимента протоколе испытаний.

В завершении я резюмирую свои мысли относительно практического значения вышеупомянутой точки зрения для планирования экспериментов, для решений по финансированию, для рецензирования представленных рукописей и для обучения специалистов-экологов.

Экспериментаторам

Планируя эксперимент, Вы должны ясно и последовательно представлять место Вашей работы в логической структуре научного процесса и соответственно этому выбрать экспериментальные методы. В экспериментах, основанных на дедуктивной логике, предпочтительно сосредоточиться на четких случаях, когда предсказанный отклик системы значительно превышает диапазон фоновых флуктуаций, где репликация становится ненужной. Однако, если это выполнимо, повторяйте эксперимент, так как это никогда не повредит. Повторялся эксперимент или нет, старайтесь сопровождать все представленные результаты статистическим анализом в неявной или явной форме. Точечными оценками могут отображаться только отдельные единичные наблюдения в выборках. Читатель обычно интересуется оценками статистических совокупностей, и Вы должны предоставить такую возможность, опираясь на Ваши выборочные данные. Если Вы проводите эксперимент в дедуктивном стиле и обнаруживаете кое-что неожиданное и захватывающее в Ваших результатах, то Ваша обязанность ясно указать, где исследование становится индуктивным, и, соответственно, рассматривать полученные результаты. И, наконец (но не в последнюю очередь), прочитайте, пожалуйста, статью С. Хелберта (1984). Несмотря на все ее недостатки, работа содержит много полезной информации относительно того, как нужно планировать в пространстве эксперимент в отсутствие ограничений.

Распорядителям финансов

Проблема распределения ограниченных ресурсов таким образом, чтобы максимизировать наши коллективные достижения, является непростой, и не сделалась легче от воспринятой потребности повторять даже те эксперименты, которые требуют больших пространственных и временных масштабов, чтобы сохранить их важнейшие характеристики. Однако в контексте дедуктивной схемы, где предсказанные изменения являются достаточно существенными, чтобы отвергнуть вероятность спонтанных отклонений в пределах пространственной области планируемого эксперимента, нет никакой реальной потребности в повторности. Деньги могут быть эффективнее потрачены на увеличение числа неповторяемых экспериментов, рассеянных всюду по географической области, где применимо данное множество предсказаний. Выборочные ошибки могут быть снижены, в то время как полученные данные могут быть впоследствии обработаны посредством мета-анализа.

Рецензентам и редакторам

Термином “псевдорепликация” так злоупотребили, что его использование в обзорах становится сомнительным. Рецензентам предпочтительнее воздержаться от употребления этого понятия. Вместо этого они должны точно описать реальную статистическую проблематику, а редакторы должны потребовать такой практики. Эксперименты со сложными воздействиями без повторностей никогда не должны упоминаться как псевдореплицированные, потому что все воздействия являются неотъемлемо комплексными. Пока псевдорепликация расценивается как ругательство, использование этого понятия в контексте комплексного воздействия дает рецензенту формальное право отклонить публикацию любой экспериментальной статьи, которая по каким-то причинам ему не понравилась. Разумно потребовать, чтобы автор явно объяснил и свою эпистемологическую позицию, и схему постановки эксперимента, но запретить автору использовать статистические критерии в контексте неповторяемых экспериментов – очевидная ерунда. Если автор представляет данные, для которых выполнимы основные предпосылки вычисления интервальных оценок, рецензенты и редакторы должны настоять, чтобы это было непременно сделано, а результаты должны быть ясно представлены в числовой форме, либо в виде доверительных областей на диаграммах.

Организаторам учебных планов по экологии

Есть причина для долгих размышлений, почему статья С. Хелберта была так широко принята, несмотря на ее неявную зависимость от полностью устаревшей эпистемологии. Вероятная причина в том, как организовано методологическое обучение. Курсы по философии науки и курсы по статистике и планированию эксперимента обычно преподаются различными преподавателями, очень мало знающими и еще меньше интересующимися проблемами в другой предметной области. Статья С. Хелберта – яркий пример такой обособленности. В общеметодологической статье на 22 страницах текста процитировано 34 чисто статистических работы, а список ссылок включает даже одну имеющую отношение к философии книгу. Однако нет ни одной ссылки на эпистемологические книги или статьи. С другой стороны, у ученых, интересующихся философскими проблемами познания, есть тенденция расценивать статистику как неинтересную работу, которую надо быстро сделать, раз уж это необходимо, и сразу забыть. Хотелось бы надеяться, что у будущих экологов будет доступ к курсам, прочитанным совместно философами науки и статистиками, что обеспечит хороший отправной пункт для методологических решений (и, возможно, для обратной связи от экологии к философии науки).

 


Cottenie K., De Meester L. Comment to Oksanen (2001): reconciling Oksanen (2001) and Hurlbert (1984) // Oikos. 2003. V. 100. P. 394-396.

КОММЕНТАРИЙ К ОКСАНЕНУ (2001):  КАК ПРИМИРИТЬ ИДЕИ Л. ОКСАНЕНА (2001) И С. ХЕЛБЕРТА (1984)

К. Коттени, Л. Де Меестр

17 лет, прошедших после выпуска статьи С. Хелберта (1984), и более 2000 ссылок на эту работу не уменьшили интереса экологов к этой дискуссии. В частности, экологи, работающие над проблемами больших экосистем, постоянно сталкиваются с неоднозначным пониманием последствий псевдорепликации при планировании корректного эксперимента. Сам факт публикации Л. Оксанена (2001) является доказательством этой борьбы. Анализ Л. Оксанена вносит некоторые ценные идеи и предложения в дискуссию, но, в конце концов, усиливает аргументацию С. Хелберта и подчеркивает актуальность его рекомендаций для статистиков, редакторов и экспериментаторов.

В сущности, проблема, затронутая С. Хелбертом, чрезвычайно проста: без повторности результат воздействия неотличим от случайных влияний. Этот факт не зависит от типа системы, с которой проводят эксперимент, и является основной причиной повторения и рандомизации воздействий. Важная проблема, которая привела к возражению Л. Оксанена, состоит в том, что желание иметь корректный экспериментальный план часто вступает в конфликт с масштабами проводимого исследования, которые могут быть связаны с сущностью поставленных вопросов.

Принимая во внимание, что пространственный охват изучаемых экосистем имеет важное значение, у Л. Оксанена (2001) есть ценная мысль, подчеркивающая, что надлежащая повторность и рандомизация – только один аспект хороших экологических исследований. Но тут мы опасаемся, что статья Л. Оксанена может быть неправильно понята многими экологами, и хотим воспрепятствовать тому, чтобы исследователи сочли представленные аргументы как оправдание, когда полученные ими результаты правильно квалифицируются как "мнимая повторность".

Общий итог статьи С. Хелберта оставляет у многих экологов чувства неудобства и подозрения, что внутренняя механика рецензируемых исследований может поставить в более выгодные условия хорошо спроектированные небольшие исследования по сравнению с продвинутыми полевыми исследованиями, выполненными в пространственном масштабе, адекватном изучаемой экосистеме, но более трудными для повторения (Carpenter, 1990). Л. Оксанен (2001) описывает "стратегию фальсифицирования" как теоретическую основу для неповторяемых крупномасштабных исследований, когда в ходе эксперимента ставятся отметки "да" или "нет" в заготовленном до эксперимента протоколе испытаний. Поскольку в этом протоколе содержатся предсказания, исследователь не просто ищет отличия, но также предсказывает направление изменений. Использование классической (доказательной) статистики в этом контексте, надо полагать, есть элемент джентльменского отношения к читателю, предоставляя ему объективную информацию о механизме проверки гипотез. Результаты статистических тестов используются здесь просто как расширение описательной статистики.

Этот подход, однако, может иметь серьезные последствия (подчеркиваемые С. Хелбертом), потому что область действия информации, полученной экспериментатором, фактически ограничена только конкретной изученной экосистемой. Чтобы делать утверждения о совокупности экосистем (а это является, в конечном счете, целью большинства научно-исследовательских работ), нужно иметь повторность экспериментальных единиц, и только тогда может использоваться проверка статистических гипотез, а данные должным образом интерпретироваться (Hurlbert, 1984). Одна выборка достаточна для подтверждения на уровне индивидуальной системы, но репликация необходима для вывода о совокупности. Утверждения о том, что различия в биологических системах будут небольшими (т.е. равны нулю) (Oksanen, 2001, p. 36), и на этом основании можно экстраполировать полученные результаты ко всей совокупности экосистем аналогичного типа, эксплуатируют доброжелательность читателя в той степени, которая не может быть оправдана.

Мы считаем допустимым использовать статистические критерии, чтобы оценить надежность описательной статистики и лучше проинформировать читателя, в отличие от С. Хелберта, который полностью осуждает это и защищает единственное использование описательной статистики. Нужно подчеркнуть, что с научно-логической точки зрения мы полностью согласны с С. Хелбертом (1984). Если авторы прекрасно знают о потенциальных ловушках, то нет никакой проблемы в использовании проверки гипотез, чтобы сообщить читателю о результатах такого тестирования. Обязательно, однако, чтобы авторы всегда были очень точны в формулировании того, что эти статистические данные не могут использоваться для экстраполяции результатов на широкую совокупность экосистем в случае, если не было надлежащих повторения и рандомизации.

Конечно, Л. Оксанен, прекрасно осознавая вышесказанное, защищает очень ценный тезис об использовании мета-анализа, объектами которого является ничто иное, как повторности изученных экосистем, а потому и полученные выводы являются корректными. Возможность последующего использования мета-анализа также должна явиться гарантом публикации неповторяемых исследований. Эта цепь рассуждений, конечно, не является оправданием неповторяемых экспериментов, которые легко можно было повторить, но это ценный дополнительный аргумент за публикацию результатов крупномасштабных экспериментов, которые из-за масштаба и сложности экосистемы было трудно воспроизвести. В любом случае, мета-анализ является действенным инструментом проверки, отражают ли полученные результаты свойства совокупности соответствующих экосистем. Однако исследователь, выполняющий такой мета-анализ, должен быть также полностью осведомлен о ловушках, возникающих вследствие псевдорепликации.

 


Hurlbert S.H. On misinterpretations of pseudoreplication and related issues: a reply to Oksanen. Oikos. 2004. . V. 104. P. 591-597.

НЕВЕРНОЕ ИСТОЛКОВАНИЕ МНИМЫХ ПОВТОРНОСТЕЙ И СОПУСТВУЮЩИЕ ПРОБЛЕМЫ: ОТВЕТ Л. ОКСАНЕНУ

С. Х. Хелберт

Авторы, которые цитируют Хелберта, добились бы большего успеха, если они прочитали его статью

A. Андервуд (Underwood, 1998, р. 344)

Двадцать лет назад (1984) я описал специфическую категорию статистической ошибки, которую назвал псевдорепликацией, оценил частоту, с которой она возникает в полевых экологических экспериментах, и прокомментировал связанные с ней проблемы планирования эксперимента и статистического анализа. Благодаря этому, много экологов стало больше знать о необходимости четкого соответствия объективным требованиям при планировании, анализе и интерпретации результатов эксперимента. Однако статья Л. Оксанена “Логика эксперимента в экологии: является ли мнимой проблемой мнимая повторность?” (2001) находит много ошибок в логике и эпистемологии моей статьи и отвечает утвердительно на вопрос в ее названии.

Л. Оксанен (2001) утверждает, что понятие "псевдорепликации" служит совершенно незаслуженным клеймом для способа проверки предсказаний, относящихся к крупномасштабным системам. Этот термин представляет собой средство клеймления экспериментальных исследований, где статистический анализ использовался в контексте неповторяемых или комплексных воздействий. Однако псевдорепликация в любом из ее различных обликов – это просто ошибка статистического анализа и интерпретации. Это действительно клеймо, но оно заслуженно, причем не только для экспериментов, где воздействия не повторяются. В любом случае, мнимые повторности кажутся полезным обозначением, даже если некоторые люди будут его неправильно использовать, как случается и со всеми остальными полезными вещами.

Л. Оксанен правильно отмечает, что в эксперименте эффект воздействия может проявиться как закономерный результат изменения номинального фактора (например, плотности полевок), так и вследствие непреднамеренных побочных влияний использованных процедур (например, влияние ограждения). Сумму номинально действующего фактора и побочных эффектов Л. Оксанен называет “комплексным воздействием”. Также верно его замечание о том, что надежное различие побочных процедурных эффектов и эффекта номинального фактора воздействия является потенциальной проблемой во всех экспериментах. Традиционными и эффективными путями решения этой проблемы являются: 1) создание идентичных условий для опыта и контроля (например, введение плацебо вместо "пустого воздействия") и 2) использование нескольких контрольных групп, для каждой из которых моделируется один или несколько типов возможного результата побочного процедурного эффекта. Однако Л. Оксанен заявляет, что если трактовать понятие псевдорепликации в расширенном смысле, включая комплексные воздействия, то все эксперименты можно считать использующими мнимые повторности. Но проблема контроля побочных процедурных эффектов не имеет никакого отношения к мнимым повторностям.

Л. Оксанен (2001) включает критический анализ псевдорепликации в расширенное обсуждение эпистемологии и, в частности, относительной роли индуктивных и дедуктивных способов рассуждения или научного исследования. Это не кажется особенно соответствующим теме моей статьи, но соответствует недопониманию Л. Оксаненом простой технической природы мнимых повторностей.

Я польщен, что мне приписано возрождение чего-то, названного таким великолепно звучащим словом как "индукционизм", даже если его не найти в словарях. С. Хелберт образца 1984 г. никоим образом не интересовался относительными ролями индукции и дедукции, а только тем, насколько исследования и их интерпретации согласуются со способом, которым эксперименты спроектированы и проведены. Некоторые из 176 экспериментов, рассмотренных в (Hurlbert, 1984), были, возможно, выполнены в чисто "дедуктивном духе", а некоторые в чисто "индуктивном духе". Но большинство из них было, вероятно, гибридами по своей природе.

Наука обычно извлекает наибольшую выгоду из экспериментов, которые одновременно тестируют наши предварительно разработанные концепции и теории и предоставляют возможность для новых наблюдений, теорий и обобщений. Мне не кажется полезным проводить строгую эпистемологическую грань между дедуктивными и индуктивными исследованиями. По крайней мере, это не нужно для поиска решения, как эффекты воздействия должны (или не должны) быть оценены статистически. Эти решения продиктованы главным образом планом эксперимента, либо выборочным планом.

Критический анализ Л. Оксанена отражает давнишнюю неразбериху в отличии между эмпирическими исследованиями в целом и управляемым экспериментом в частности. В начале его статьи имелись в виду, кажется, только управляемые эксперименты, которые были центром внимания моей статьи (1984). Но постепенно Л. Оксанен смещается к использованию этого термина в смысле любого эмпирического исследования, выполненного в соответствии “с основными принципами дедуктивной науки”.

Удивительно, но большинство книг по статистике или планированию эксперимента, включая большинство классики, не делает попытки определить понятие управляемый эксперимент. Немногие сделанные усилия кажутся неадекватными. Вот моя попытка заполнить этот вакуум.

Управляемый эксперимент – реализация процедурного плана, позволяющего определить эффект воздействия одной или нескольких переменных, которые управляются экспериментатором (= экспериментальные переменные или факторы воздействия), на один или более показателей (= переменные отклика) некоторого типа систем (= экспериментальная единица). Его первичные определяющие признаки: (1) экспериментатор может назначить воздействия наугад для любой доступной экспериментальной единицы; (2) есть два или более уровней, установленных для каждой воздействующей переменной, используемой в эксперименте.

Следует отметить, что есть частные случаи корректной оценки эффекта воздействия в отсутствие повторности. Пришло время признаться, что первая же строка резюме моей статьи (1984) содержит элементарную ошибку: “Псевдорепликация определена… когда воздействия не повторяются…”. Мораль: не спешите писать резюме! Есть несколько ситуаций, в которых данное утверждение не имеет силы.

Во-первых, может случиться так, что воздействующий фактор является непрерывной переменной (например, концентрация удобрения), а переменная отклика (например, урожайность) измерена только на одной экспериментальной единице для каждого из нескольких уровней воздействия. Можно построить регрессионную модель (например, линейную) на основе такого набора данных и оценить соответствующий средний квадрат отклонений наблюдаемых значений от предсказанных моделью величин. Вычисленное стандартное отклонение может использоваться, чтобы проверить, отличается ли наклон линии регрессии от нуля. Если истинная функциональная зависимость между воздействующим фактором и переменной отклика не будет адекватно описываться используемой моделью, то полученное стандартное отклонение будет иметь тенденцию превысить истинную дисперсию ошибок наблюдений, т.е. случайную величину, которая отражает общую изменчивость множества экспериментальных единиц под влиянием имеющихся воздействий. Такая переоценка снизит мощность теста и сделает консервативной проверку гипотезы о коэффициенте наклона. Так, если в этом испытании получено низкое значение р-вероятности нулевой гипотезы, есть все основания для заключения о наличии эффекта воздействия.

Вторая ситуация относится к факторным экспериментам, где каждая комбинация воздействий применена только к единственной экспериментальной единице. Итоги такого эксперимента могут быть подвергнуты дисперсионному анализу, который использует средние квадраты двухфакторных взаимодействий как оценку истинного среднего квадрата ошибок. Если нет никакого взаимодействия воздействующих факторов, то средний квадрат межфакторных взаимодействий – несмещенная оценка истинного среднего квадрата ошибок, и использование последнего для проверки эффекта воздействия справедливо. Если взаимодействие факторов имеет место, то использование среднего квадрата для взаимодействия сделает такой тест консервативным (т.е. низкой мощности), и низкие р-значения являются убедительным доказательством эффекта воздействия.

Таким образом, отсутствие повторности воздействий не только не составляет псевдорепликацию, но и не всегда мешает проведению корректных статистических тестов о результатах воздействия.

Понимание экологических и других естественных явлений, происходящих в больших пространственных и временных масштабах, редко достигается посредством управляемых экспериментов. В этом отношении "крупномасштабная" экология больше подобна таким областям, как астрономия, геология, океанография, эпидемиология и социология, нежели медицине, сельскому хозяйству, клеточной биологии и производственным процессам. Однако для экологов иногда возможно выстроить управляемые эксперименты с обширными пространственными объектами (целые озера, острова, небольшие водоразделы, большие массивы леса), которые намного больше обычной сельскохозяйственной делянки, являющейся архетипическим образцом экспериментальной единицы для полевых биологов и статистиков. Зачастую эти крупномасштабные управляемые эксперименты лишены повторности воздействий, однако некоторые из них привели к открытию новых закономерностей, подтвердили специфические теории и продвинули науку. Все это было признано мною (1984), и, вопреки утверждению Л. Оксанена (2001), к таким исследованиям я не употреблял термины "нестрогий" или "псевдореплицированный".

Кроме критического анализа моей статьи и "индукционизма", Л. Оксанен привел много аргументов в защиту экспериментов, лишенных повторности воздействий, но проводящихся "в дедуктивном духе". Хотя он утверждает, что речь идет о "нормальном" исследовании, его рекомендации фактически предназначены для очень узкого класса ситуаций, когда заранее известно, что результат воздействия будет заведомо больше "фоновой изменчивости", т.е. можно обойтись и без повторностей. Можно, конечно, выбрать уровень воздействия, который будет воздействовать как кувалда, даже если логика проверки экологической гипотезы требует работы киянки. Но такой подход вообще не применим к экспериментированию в целом, ни к "дедуктивной", ни к "индуктивной" его разновидности.

Далее, Л. Оксанен неправильно читает Хелберта (1984), заявляя, что "требование, чтобы проверка статистических гипотез не использовалась в контексте неповторяемых экспериментов, является очевидной ерундой". Я рекомендую редакторам отклонять использование статистических критериев, "если они неправильно употребляются". Это едва ли можно считать спорным советом. Если исследователь, обрабатывая результаты эксперимента при "двух уровнях воздействия без повторности", получает низкое р-значение в тесте по t-критерию и утверждает, что это является статистическим доказательством {statistical evidence} отклонения нулевой гипотезы об отсутствии эффекта воздействия, то ясно, что это неправильное использование терминологии проверки статистических гипотез. В литературе редко кто, выполняя такие эксперименты, воздержался бы от интерпретации низких р-значений как категорического доказательства эффекта воздействия.

Аргументы Л. Оксанена не учитывают того, что если проводятся такой эксперимент и анализ, а нулевая гипотеза об отсутствии эффекта воздействия верна, то вероятность ошибки первого рода приблизится к 100%, а вероятность "подтверждения" альтернативной гипотезы или предсказания - к 50%, когда число сделанных в каждой экспериментальной единице измерений станет очень большим. Так происходит потому, что две экспериментальные единицы, в действительности, всегда в какой-то степени различны, и при проверке нулевой гипотезы об их однородности при больших объемах выборки практически гарантированно будут получены низкие р-значения. А поскольку воздействия назначаются случайно, то наблюдаемое различие в переменной отклика будет иметь 50-процентную вероятность быть направленным в сторону, предсказанную на основе проверяемой гипотезы или теории. Поэтому, когда эксперимент с двумя уровнями воздействия без повторности "подтверждает" какую-либо гипотезу, это представляет самый слабый, наименее строгий вид возможного подтверждения.

Я считаю целесообразным подвергнуть сомнению использование мета-анализа, способного восполнить недостаток в повторности воздействий путем обработки большого количества "подобных" экспериментов. Мета-анализ далек от методологической панацеи, которая может компенсировать слабость исследований, задействованных в нем. Когда из-за отсутствия повторности воздействий, оценки величины воздействия будут содержать большое количество "шума" или случайной ошибки, результат мета-анализа также будет "зашумлен". Мета-анализ вряд ли приведет к лучшему пониманию существа дела, чем представленный менее претенциозным, но более простым и прямым образом обзор опубликованных исследований. При проведении мета-анализа принимается множество субъективных решений и мы не должны обманываться этим статистическим аппаратом, полагая, что это мощный, объективный и строгий инструмент. Большая часть количественных выводов достаточно искусственна и больше говорит нам об экспериментаторах и мета-аналитиках, чем о природе вещей. Подобные исследования могут служить в качестве удобных и сжатых резюме того, что уже известно о результатах лучших хорошо спроектированных экспериментов, но, по крайней мере, в экологии я не знаю о таком мета-анализе, который обеспечил бы существенно новое понимание литературных данных или описал новые явления.

Можно также привести доводы против относительного увеличения финансовой поддержки экспериментам с неповторяемыми воздействиями. Когда затраты по реализации эксперимента очень высоки, то неоправданная экономическая роскошь – загонять себя в рамки жесткого гипотетико-дедуктивного подхода и измерять только одну или несколько переменных отклика, о которых наша теория делает строгие предсказания. Мы должны максимизировать ценность эксперимента, контролируя в нем возможно большее количество различных переменных, что реализуется за счет относительно небольших дополнительных вложений. Некоторые из этих переменных служат, чтобы просто определить условия эксперимента, другие обеспечивают понимание механизмов, посредством которых факторы воздействия реализуют свой эффект, а третьи являются генераторами новых идей или представлений, лишь косвенно связанных с явлениями и теориями первоочередного интереса. Но и тогда, если воздействия не будут повторяться, наша информация относительно расширенного пространства переменных будет неубедительной.

Я считаю, что каждый предложенный эксперимент должен быть оценен в совокупности со всеми его целями, планом, возможностями и затратами. Не должно быть никакого автоматического отклонения экспериментов в зависимости от степени повторяемости воздействий.

Но позвольте нам все же не бояться называть лопату лопатой. Псевдорепликация продолжает быть одной из самых общих статистических ошибок в экологии и многих других социальных и естественных наук. Ученые, которые знакомы с распространенными вариантами ее проявления, легко найдут способ их избежать. Редакторы и рецензенты, которые не знакомы с ними, продолжат неправильно "диагностировать" рукописи и поддерживать беспорядок в журналах.
Виват клейму и каленому железу!

 


Oksanen L. The devil lies in details: reply to Stuart Hurlbert // Oikos. 2004. V. 104. P. 598-605

ДЬЯВОЛ ЗАКЛЮЧАЕТСЯ В ДЕТАЛЯХ: ОТВЕТ СТЮАРТУ ХЕЛБЕРТУ

Л. Оксанен

Комплексные воздействия и неизбежно "псевдореплицированная" природа всех экспериментов

Фрагмент о комплексных воздействиях представляет особенно удивительный аспект ответа С. Хелберта (2004). По моему пониманию, представленные им аргументы находятся в прямом конфликте с практическими выводами классической статьи (Hurlbert, 1984) о необходимости перемешивания воздействий и контрольных единиц, поскольку оно предохраняет эксперимент от "несверхъестественного вмешательства" (внешних влияний, логически не связанных с экспериментальным воздействием). В этом контексте физическое пространство – только одна переменная из многих. Чтобы быть действительно статистически независимыми, воздействия и средства контроля должны быть хаотично вкраплены вдоль осей всех потенциально существующих экологических градиентов. Только тогда случайные и несверхъестественные влияния перестают быть значимыми в контексте тестирования эффекта воздействия. Поскольку осей экологических градиентов можно выделить достаточно много, то, по логике С. Хелберта (1984), все эксперименты неизбежно представляют мнимые повторности, по крайней мере, в известной степени. Можно полностью согласиться с С. Хелбертом, что задача должна решаться минимальными средствами и перемешивание в пространстве – хорошее средство и вполне достаточная предосторожность. Но мы должны понять, что эта оговорка – только "социальное соглашение научного сообщества".

О "двойных стандартах" аргументов, представленных С. Хелбертом (1984).

С. Хелберт (2004) повторяет свою известную точку зрения, что “псевдорепликация просто ошибка статистического анализа и интерпретации”. Простые статистические ошибки все еще совершаются экологами и должны быть исправлены. Однако понятие "ошибка интерпретации", по моему пониманию, не имеет четкого значения вообще. Для меня надлежащая интерпретация продемонстрированного контраста между двумя статистическими совокупностями зависит от мнения ученых относительно правдоподобия различных предполагаемых причин. С. Хелберт (1984, 2004) не соглашается с этим и устанавливает неотъемлемую ошибочность любой интерпретации различий между воздействием и контролем как эффекта воздействия, если план эксперимента не исключил все вообразимые формы "несверхъестественного вмешательства". Причем его совершенно не интересует правдоподобие предположений, т.е. могут или не могут такие "вмешательства" хоть как-то влиять на выявленный контраст.

Здравый смысл и знание нормальной изменчивости экологических систем говорят нам, какие факторы (кроме самого воздействия), в какое время и каким образом могут поспособствовать различиям в отклике между опытом и контролем (или привнести свою долю таких различий), а какие "несверхъестественные вмешательства" просто не в состоянии обеспечить вероятное альтернативное объяснение наблюдаемых контрастов. С. Хелберт (1984, р. 191) возражает против использования любой априорной логики в контексте экспериментальной работы (“справедливость заключений не должна зависеть от соответствия таких предположений реальности”). Это – один из возможных путей видения роли эксперимента в науке, но это едва ли единственный путь. Для меня окончательный вывод должен следовать за логикой, формализованной в моем критическом анализе (Oksanen, 2001, уравнение 1), причем независимо от того, имеем ли мы дело со спонтанными событиями, со следствиями различных способов управления или, собственно, с экспериментами.

Ядро моих разногласий с С. Хелбертом в том, что он хочет выдать рецензентам "карт-бланш", позволяющий ставить клеймо "неправильное использование статистического анализа" в контекстах экспериментов, и использовать это клеймо как причину для отклонения публикаций.

Что есть эксперимент?

Будучи хорошим описанием определенной категории экспериментов, определение С. Хелберта (2004) является длинным и узким. Следует отметить, что в целях междисциплинарной коммуникации следует воздержаться от создания доморощенных определений, когда возможно использование общепринятых. Потому я осведомился, как трактуют термин "эксперимент" финская и шведская энциклопедии. Короткая их версия показалась мне последовательной и вполне подходящей для экологических экспериментов:

Эксперимент – преднамеренная и активная манипуляция эмпирической системой, проводимая, чтобы проверить справедливость предположения или полезность процедуры.

В этом определении подчеркнута активность манипуляции, что делает понятие "управляемый эксперимент" тавтологией. В то же время там нет никакого упоминания о рандомизации или об уровнях воздействия.

Я могу согласиться, что термин эксперимент должен резервироваться для таких эмпирических исследований, где предприняты все возможные предосторожности, чтобы исключить любые формы "несверхъестественного вмешательства" в свете концепций С. Хелберта. Но мы тогда должны найти какое-то другое название для тех управляемых исследований, которые остаются основой экологической науки, но пребывают в нейтральной зоне между экспериментами и описаниями. Причина же моего обсуждения этих терминологических нюансов состоит в том замечании, что научные факты, полученные в эксперименте даже с очень несовершенным планом, могут составить сильные тесты умозаключений.

Об отношении между эпистемологией и практической методологией

Индукционизм – это философское направление, обрисованное в общих чертах сэром Фрэнсисом Бэконом (Bacon, 1620) и далее разработанное несколькими другими философами, в особенности Джоном Стюартом Милем (Mill, 1843). Согласно этой философской школы, представляется возможным твердо установить причинно-следственные связи путем индукции, если строго соблюдать определенные правила. Типичная точка зрения индукциониста состоит в том, что он подчеркивает потребность опытным путем доказать предполагаемые причинно-следственные отношения и переходить от частного к общему только тогда, когда такая связь будет установлена эмпирически. Основная идея С. Хелберта (1984) о том, что p-значения, которые вычисляют экспериментаторы, могут быть жестко соотнесены с проверяемой в эксперименте гипотезой при условии, что выполняются правила планирования эксперимента (рандомизация, повторяемость, перемешивание), являет собой пример логики такого рода. Экологические системы действительно могут обладать свойствами, делающими индукционистскую методологию приемлемой. Однако для конструктивного обсуждения полезно понимать позицию каждого и при этом осознавать существование других точек зрения.

Основной отправной пункт гипотетико-дедуктивного подхода состоит в том, что, несмотря на большую важность индукционизма, это внутренне неопределенная процедура (Popper, 1963). Поэтому акцент смещается от твердого вывода общих законов на основе частных случаев к формированию проверяемых предположений. Чтобы быть проверяемым, предположение должно охватывать целую категорию. Основа вывода умозаключений о совокупностях заключена, таким образом, в самом предположении, которое должно быть применимо ко всем элементам категории, определенной теоретиком. Если поведение отдельного элемента противоречит следствиям предположения, то необходимо считать предположение опровергнутым (по крайней мере, в его исходной форме [Lakatos, 1972]). В этом контексте сущность хорошего эксперимента состоит не в плане как таковом, а в существовании ясных предсказаний, относящихся к экспериментальной системе и имеющих крайне малую вероятность реализоваться по причинам, не имеющим отношения к проверяемому предположению. Если это так, то даже спонтанные события или неидеально спланированные эксперименты могут послужить строгой проверкой. Если же этого нет, то никакая рандомизация и репликация не помогут. Результаты будут неубедительными в любом случае.

Проиллюстрируем проблемы и возможные компромиссы примером из реальной научной практики. Среди экологов активно обсуждается вопрос о потенциале травоядных, ограниченных лишь пищей, оказывать существенное влияние на бентосную растительность Алеутского архипелага или на наземную растительность различных океанских островов. Суть вопроса в том, является ли это специфическим свойством обедненных островных сообществ или же это характерное свойство наземных и бентосных экосистем вообще. Очевидный путь проверить эти два предположения – создать соответствующие свободные от хищников экспериментальные системы, состоящие из континентальной растительности и из нескольких травоядных, питающихся ею. В этом случае предположения, следующие из конкурирующих гипотез, совершенно ясны. Предположение, подчеркивающее способность растений адаптироваться и отрицающее роль хищничества, предсказывает, что экосистема будет находиться в устойчивом стационарном состоянии. Предположение же, подчеркивающее существование в сообществе трофических каскадов, предсказывает вспышку численности травоядных и изменение растительности до неузнаваемости, по крайней мере, в относительно продуктивных экосистемах, в которых исходно доминируют древесные растения и высокие травы.

К сожалению, создание таких экспериментальных систем проще описать на словах, чем реализовать. Для относительно некрупных травоядных (например, полевок) они могут быть созданы в закрытом помещении типа оранжереи, но тогда ограниченность пространства неизбежно создает воздействие типа "кувалды", что нежелательно по многим причинам. Можно создать ограждения в полевых условиях, но имеющиеся примеры имели дело либо с полусельскохозяйственными системами, в которых изначально доминировала травяная растительность, либо с системами, в которых огораживание от хищников выполнялось только на короткие периоды времени. Наилучшим решением оказалась работа с островами на большом озере, где есть эффективный барьер против проникновения посторонних хищников. Однако такой план далек от идеала, поскольку невозможно рандомизировать участки местности: быть ли им экспериментальным островом или контролем. Более того, достаточно лишь одного визита к острову в ветреный день, чтобы осознать, что результаты обязательно будут подвержены "несверхъестественным вмешательствам" (действие волн, брызг, нагромождений льда), влияющим на растения, мелких млекопитающих и/или на исследователей. Существование некоторых различий между островами и сушей тривиально. Однако предсказание, следующее из предположения о каскаде, доминирует над всеми этими эффектами. На островах должен проявиться синдром Алдабры-Кергелена, когда плотность мелких млекопитающих сильно возрастает и интенсивность зимнего выедания ведет к полному разрушению древесной растительности и доминированию травянистых растений. Результаты эксперимента подтвердили эти довольно специфические предсказания. Тем не менее оказалось довольно сложно донести их до научного сообщества, озабоченного хелбертовской проблемой псевдорепликации и совершенного плана эксперимента.

Я надеюсь, что этот пример достаточно хорошо иллюстрирует, что мое "заполнение тестового протокола" – это нечто большее, чем простая констатация различий между двумя совокупностями, а утверждение С. Хелберта о том, что “вероятность "подтверждения" независимой гипотезы или предсказания приблизится к 50%, когда число сделанных в каждой экспериментальной единице измерений станет очень большим”, совершенно неверно. Это утверждение применимо только в воображаемом мире, где опровержение статистической нуль-гипотезы автоматически означает подтверждение научного предположения. Но предсказательная наука просто не работает таким образом. Она идет путем получения предсказаний в строгом количественном аспекте или путем получения нескольких статистически независимых предсказаний, одновременное подтверждение которых крайне маловероятно.

Изгнание дьявола деталей

Проблема состоит в том, что С. Хелберт (1984, 2004) запрещает совместное использование статистики и здравого смысла при интерпретации результатов таких экспериментов, где повторность и/или перемешивание воздействий были неосуществимы. Даже использование интервалов ошибки, чтобы показать надежность оценок выборочного среднего в графических представлениях (популярные графики Box-Whisker), трактуется им как особенно опасная форма "псевдорепликации": “Отвергните неявную псевдорепликацию, которая особенно вводит в заблуждение, поскольку часто появляется под маской "очень убедительных" диаграмм!” (1984, p. 208).

В моем понимании С. Хелберт построил собственный мир, где демонстрация величины различий не имеет никакого значения для оценки возможности "несверхъестественного вмешательства", где любое явное и неявное использование статистики в недостаточно хорошо спроектированных экспериментов расценено как "неправильное использование" и где любое использование здравого смысла для объяснения статистически значимых различий, которые не могут механически расцениваться как эффект воздействия, автоматически выдается за "ошибку интерпретации". Именно этот дьявол деталей, по моему мнению, и должен быть изгнан.

Мы, экологи, должны возвратиться в мир действительности. Но на этом пути мы должны сначала вспомнить, почему мы были приговорены к "миру Хелберта". До 1984 г. даже ведущие ученые-экологи довольно слабо владели статистикой и могли вкладывать в полученные p-значения неадекватный смысл. Статья С. Хелберта (1984) не имела бы такого некритического восприятия, если бы огромное большинство экологов, раскритикованных им, действительно не игнорировало основы планирования эксперимента, а интерпретация p-значений всегда была бы верной. Смысл возврата в том, что мы должны избавиться от перечисленных выше произвольных и контрпродуктивных ограничений, не теряя при этом положительные следствия классической статьи С. Хелберта (1984) – огромнейшее увеличение нашей коллективной озабоченности проблемами статистики и планирования эксперимента.

Возвращаясь к действительному миру, мы должны осознать простой факт, что эксперименты проводятся в самых различных целях. Один класс экспериментов состоит из манипуляций, которые управляют различными физическими, химическими и биологическими параметрами, где уровни воздействия установлены экспериментатором, и где экспериментатор прежде всего интересуется кратковременными непосредственными реакциями системы. В таких экспериментах исследователь обычно пытается избежать уровней воздействия, которые радикально изменили бы характеристики системы, так как это будет мешать идентифицировать непосредственные ответы системы на различные воздействия и изучать их взаимодействия. Эксперименты этого типа получили широкое распространение в сельском хозяйстве, лесоводстве и медицине, а через них – и в экологии. И большинство руководств по биометрии, и классическая статья С. Хелберта (1984), и его недавнее определение управляемого эксперимента ясно обращаются к этой категории экспериментов.

Однако экологи часто проводят эксперименты, где значимость предполагаемого популяционного или ценотического экологического механизма изучается путем удаления или, наоборот, привнесения действующего агента, который предположительно играет решающую роль в данном сообществе. Тогда понятие “уровня воздействия” имеет ограниченное значение, поскольку единственные интересующие исследователя уровни – суть непотревоженное наличие, либо полное отсутствие. Центр внимания исследователя приходится на такие динамические отклики, когда система изменяется до неузнаваемости, а именно это должно случиться, если был удален или добавлен ключевой компонент. Сосредоточение именно на таких сильных откликах снижает потенциальное значение "несверхъестественного вмешательства".

Одним из путей разрешения противоречия может быть разработка подробной терминологии. Мы можем определить идеально спланированный эксперимент как эксперимент, следующий всем рекомендациям С. Хелберта касательно рандомизации, репликации и перемешивания. В этом контексте правомерно требовать, чтобы экспериментальные и контрольные единицы были перемешаны во всех очевидно и потенциально значимых измерениях, а не только в двумерном физическом пространстве. Более того, мы должны требовать от экспериментатора воспроизведения всех побочных эффектов воздействия. Если какое-либо из этих условий не выполняется в эксперименте, претендующем на статус идеально спланированного, то использование клеймящего ярлыка "псевдорепликации" действительно заслужено, поскольку рассчитанные экспериментатором p-значения ложно представляются как имеющие максимальную строгость, чему план на самом деле не соответствует.

Идеально спланированные эксперименты могут быть противопоставлены экспериментальным событиям, когда в фокусе исследования – проверка того, вызывает ли данная манипуляция драматический сценарий, предсказанный данным предположением. Здесь сила эксперимента зависит от вероятности развития предсказанного сценария по причинам, независимым от воздействия. Отклонение статистической нуль-гипотезы об отсутствии эффекта воздействия ни достаточно, ни необходимо для того, чтобы эксперимент был убедительным. Даже безупречно продемонстрированный эффект воздействия в предсказанном направлении может быть двусмысленным результатом, если наблюдаемый эффект гораздо меньше предсказанного. И наоборот, драматическая цепь событий, выливающаяся в огромные различия между одной экспериментальной и одной контрольной единицами, может послужить строгим подтверждением, если такие радикальные события не принадлежат к нормальному поведению системы.

Ясное различие между идеально спланированными экспериментами и экспериментальными событиями и сопутствующее ему различие между статистически продемонстрированным эффектом воздействия и тем, что может быть с полным основанием интерпретировано как такой эффект, могут послужить основой возвращения к реальному миру – возродить возможность использования воображения и здравого смысла даже в контексте экспериментальных исследований без потери концептуальной строгости, введенной С. Хелбертом (1984). Только такие контрасты между опытом и контролем, которые не могут разумно объясняться как следствия "несверхъестественных вмешательств", принимаются как интересные результаты, и каждый экспериментатор должен понимать, что заключительное слово в оценке его работы будет сказано другими коллегами. Если это станет ясно, то мнимая повторность действительно будет мнимой проблемой, а интервалы ошибок на диаграммах не будут считаться "неявной псевдорепликацией", а будут предоставлять ценную информацию, помогая читателю судить, было ли различие достаточно отчетливым, чтобы считать доказанным вне всякого разумного сомнения, что возникший контраст был следствием воздействия.

 


Kozlov M.V. Improper sampling design and pseudoreplicated analysis: conclusions by Velic?kovic? (2004) questioned // Hereditas. 2007. V. 144. P. 43-44

НЕВЕРНЫЙ ВЫБОРОЧНЫЙ ПЛАН И АНАЛИЗ С МНИМЫМИ ПОВТОРНОСТЯМИ: ЗАКЛЮЧЕНИЯ ВЕЛИЧКОВИЧ (2004) ПОДВЕРГАЮТСЯ СОМНЕНИЮ

М.В. Козлов

В недавно опубликованной работе (Velicˇkovicˇ, 2004) ŕвтор сравнила несколько параметров чернополосатой мыши (Apodemus agrarius) в одном загрязненном и одном незагрязненном районе и приписала различия "результату нарушенной окружающей среды", что отражено и в названии публикации. Это заключение не имеет статистической основы и представляет собой ясный пример простой мнимой повторности в определении С. Хелберта (1984).

Утверждение о сходстве или несходстве двух групп объектов справедливо только, когда различия между группами сравниваются с изменчивостью в пределах групп. Очень важен уровень, на котором измерена изменчивость в пределах групп. Также очевидно, что оценка изменчивости в пределах группы возможна, если группа состоит больше, чем из одного объекта. Однако когда есть только единственная экспериментальная единица для каждого воздействия, и изменчивость в пределах группы рассчитана по измерениям, сделанным на множестве выборок или оценочных единиц в пределах единственной экспериментальной единицы, тогда имеет место простая мнимая повторность. Эта ошибка весьма распространена и описана во многих обзорах, поэтому несколько удивительно обнаружить, что некоторые авторы все еще расценивают этот вид статистического анализа как допустимый.

План исследования М. Величкович (2004) не отличается от плана неповторяемых экспериментальных воздействий, который неоднократно обсуждался ранее (Hurlbert, 1984; Hefner et al., 1996; Козлов, Хелберт, 2006). Физическое проведение этого исследования определило каждую зону отбора проб как экспериментальную единицу, и поэтому необходима изменчивость среди участков с тем же самым "воздействием", чтобы показать результаты загрязнения. Другими словами, должны быть изучены, по крайней мере, два загрязненных и два "чистых" участка, чтобы показать результаты экологического стресса, вызванного загрязнением. Изменчивость среди индивидуумов в пределах участков представляет другой уровень, на ступеньку ниже в иерархическом анализе, поэтому она не может корректно использоваться, чтобы показать результаты загрязнения. Эта изменчивость может использоваться только, чтобы оценить различие между участками, как сделано М. Величкович (2004), но такой анализ не может быть статистическим основанием того, что эти различия вызваны загрязнением. Таким образом, хотя заключение о причинно-следственной связи между стрессом, стимулированным загрязнением естественной среды, и морфологическими изменениями в популяции черно-полосатой мыши вполне могут оказаться верными, справедливость этого заключения следует доказать объективными методами, что требует должным образом повторяемого набора данных.

Использованием этого примера я хотел привлечь внимание экспериментальных экологов к необходимости должным образом планировать полевые исследования. Несовершенный выборочный план может сильно уменьшить ценность исследования и даже привести к неправильным практическим рекомендациям.

 


Velicˇkovicˇ M.V. Sampling designs, pseudoreplication and a good practice in modern science: a response to Mikhail V. Kozlov desultoriness, and recommendations to environmental scientists // Hereditas. 2007. V. 144. P. 45-47

ВЫБОРОЧНЫЕ ПЛАНЫ, МНИМЫЕ ПОВТОРНОСТИ И ХОРОШАЯ ПРАКТИКА В СОВРЕМЕННОЙ НАУКЕ: НАБРОСКИ ОТВЕТА МИХАИЛУ В. КОЗЛОВУ И РЕКОМЕНДАЦИИ УЧЕНЫМ-ЭКОЛОГАМ

М.В. Величкович

Комментарии (Kozlov, 2007) на мою недавно опубликованную работу (Velicˇkovicˇ, 2004) представляют серьезную опасность, особенно для молодых экологов, недостаточно хорошо знающих особенности планирования, анализа и интерпретации результатов экспериментов при контроле загрязнения.

При обнаружении и анализе флуктуирующей асимметрии FA (Van Valen, 1962) важно корректно оценить степень стресса, определяемого факторами окружающей среды. Здесь есть постоянная опасность ошибочных выводов, особенно при изучении растений. Например, в эксперименте на сосне шотландской Pinus sylvestris L. (Kozlov, Niemela, 1999; Kozlov et al., 2002) авторы сравнивали две группы деревьев, но они не знали, отличались ли эти группы генетически или из-за загрязнения окружающей среды. На участках, где генетические и экологические факторы были объединены, различия в асимметрии не могут быть объяснены только загрязнением. Поэтому выводы, декларированные в их исследованиях, не поддержаны логикой проведенного эксперимента.

В работе (Velicˇkovicˇ, 2004) áыли проанализированы популяции чернополосатой мыши в двух местностях: длительно загрязненной промышленной зоне (Pancevo) и лесистой области в Сербии (Cer), удаленной от всех известных источников загрязнения. М. Козлов (2007) считает, что должны быть изучены, по крайней мере, два загрязненных и два “чистых” участка. Я не понимаю, почему число участков, выбранных в экспериментах самого М. Козлова с сосной шотландской, отличается от его более поздних предложений (Kozlov, 2007). Безусловно, в экологических исследованиях и число выбранных участков, и объем выборок должны быть достаточными, чтобы обеспечить надежный анализ данных. Однако мы все знаем, что происходит с нашей планетой и ее природными ресурсами. Это только вопрос времени, когда последний незагрязненный участок на Земле надолго исчезнет. И вопрос о том, где найти повторность контроля в однородно загрязненной окружающей среде, мягко говоря, окажется бессодержательным.

Так как М. Козлов (2007) считает, что проведенные нами исследования “не могут быть статистическим основанием того, что эти различия относятся к загрязнению”, необходимо привести комментарии к этим утверждениям:

Во-первых, каждый статистический тест является вполне специфицированным и может быть соответствующим/несоответствующим или законным/незаконным {validly/not validly}, относительно его использования в конкретной задаче. Некоторые статистические процедуры являютcя комплексными. Они требуют различных, но определенных статистических испытаний, которые должны быть применены в точно описанной последовательности. Хороший пример этому - статистическая процедура, описанная А. Пальмером (Palmer, 1994).

Во-вторых, я не использовала вариацию, “чтобы проверить различие между участками”, а сравнивала дисперсии (значения s 2i). По Пальмеру (1994), для расчета различных индексов FA необходимо найти оценку дисперсии ассиметрии (т.е. между сторонами). В нашей статье (2004) эти значения были рассчитаны с использованием двухфакторной смешанной модели ANOVA (стороны ´ индивидуумы) для всех взятых повторностей. Обе из имеющихся сторон (правая или левая) выступали как фиксируемый эффект, количество экземпляров - как случайный фактор, и оценивалось также их парное взаимодействие. Эта процедура обеспечивает оценку дисперсии между сторонами после удаления из нее ошибки измерения и позволяет одновременно проверить присутствие направленной асимметрии DA (Van Valen, 1962). Для сравнения оценок дисперсии между сторонами и ошибки измерения использовался тест по F-критерию. Выбранная статистическая процедура являлась соответствующей поставленной задаче, и она законно использовалась.

В-третьих, очень важно указать, что нигде, ни в одной моей работе, не было написано, что различие в оценках FA между участками является результатом загрязнения. Полученное различие в FA между участками только указывает на возможность генетической и/или экологической неоднородности. В другой работе (Velicˇkovicˇ, Perisˇicˇ, 2006) ďо Plantago major L. мы, например, нашли, что растения, находящиеся на напряженных участках, являются более симметричными, чем те, которые живут в контрольном участке, т.е. имеется феномен местной адаптации растений к стрессовым условиям.

В-четвертых, чтобы показать эффект загрязнения на естественных популяциях животных или растений одного анализа FA недостаточно. Необходимы дополнительные подходы или методы, применяемые вместе с FA для анализа устойчивости популяционного развития. В обсуждаемой работе предлагается объединенное использование хромосомного анализа и флуктуирующей асимметрии для обнаружения и оценки результатов стресс-факторов окружающей среды на естественных популяциях мелких млекопитающих. Именно эта комбинация методов и экологических сообществ может оказаться эффективным экотоксикологическим биоиндикатором загрязнения.

Нелишне также отметить, что измерение флуктуирующей асимметрии на популяциях черно-полосатой мыши проводились в течение долгого времени: с 1994 по 2000 г., включая две коллекции в течение весеннего и летнего сезонов. Это означает, что в (Velicˇkovicˇ, 2004) экспериментальные данные имели необходимую статистическую повторяемость, а анализ FA использовался самым соответствующим способом.

Моя рекомендация в первую очередь молодым ученым-экологам: необходимо защищать хорошую научную практику в современной науке, чтобы избежать ошибок, допущенных М. Козловым (2007).

 


Журнал общей биологии. - 2003. - Т. 64, № 4. - С. 292-307.

МНИМЫЕ ПОВТОРНОСТИ (PSEUDOREPLICATIONS) В ЭКОЛОГИЧЕСКИХ ИССЛЕДОВАНИЯХ: ПРОБЛЕМА, НЕ ЗАМЕЧЕННАЯ РОССИЙСКИМИ УЧЕНЫМИ

М.В. Козлов

В англоязычной литературе статья C. Хелберта произвела ошеломляющий эффект – многие ученые с изумлением обнаружили, что ранее опубликованные материалы в принципе не способны ни подтвердить, ни отвергнуть проверяемую гипотезу из-за некорректного планирования эксперимента и/или ошибочного толкования термина "независимая повторность". База данных (Science Citation Index) Института научной информации (Institute for Scientific Information) за 1987-2001 годы включает 2105 ссылок на статью Хелберта (Hurlbert, 1984). Однако при подготовке курса лекций по теории планирования эксперимента я неожиданно обнаружил, что понятие мнимых повторностей совершенно неизвестно подавляющему большинству российских экологов. Просмотр доступной русскоязычной литературы по прикладной статистике (более 20 учебников и учебных пособий, изданных после 1987 года) показал, что термин "pseudoreplication" (либо его аналог) не встречается ни в одном из изданий. Более того, по данным Института научной информации, в базу данных которого включены ведущие журналы Российской АН, работа Хелберта ни разу не цитировалась в русскоязычной периодике. Такое положение вещей вряд ли можно считать удовлетворительным, поскольку значительное число публикаций российских ученых основывается на мнимых повторностях.

Главная задача настоящей статьи – обратить внимание российских экологов на важность тщательного планирования экспериментальных работ и, в частности, привлечь особое внимание к проблеме мнимых повторностей. С этой целью я кратко излагаю основные положения, содержащиеся в статье Хелберта (Hurlbert, 1984), и иллюстрирую их примерами типичных ошибок, преимущественно взятыми из статей российских ученых.

Генеральная совокупность, выборка, и интерпретация результатов эксперимента

Как правило, экологи распространяют (экстраполируют) свои выводы на более широкий круг объектов, чем объекты, непосредственно изученные в ходе эксперимента. Реакция индивидуального дерева ели на применение удобрений вряд ли представляет научный либо практический интерес; то же самое можно сказать и об отдельно взятом участке елового леса. Постановка задачи, как правило, предполагает, что выводы можно будет применять к генеральной совокупности – например, ко всем еловым лесам (с возможными ограничениями по географическому распространению, возрасту и другим параметрам). Поставить эксперимент на генеральной совокупности мы, как правило, не в состоянии; поэтому для проведения эксперимента используется некая выборка.

Поскольку выводы, полученные при изучении выборки, будут логически распространены на всю генеральную совокупность, получение (или невозможность получения) адекватной выборки, как правило, определяет дальнейший ход работы. Одна из наиболее обычных ошибок – неоправданное обобщение частного (при заданной методике получения выборки) результата. Здравый смысл подсказывает, что изучение сосновых лесов Подмосковья не позволяет делать выводы обо всех лесах мира; тем не менее, изучение растений, посеянных на одной грядке, часто служит основой для выводов об экологических особенностях вида в целом.

Пример 1. Малышева и Малаховский (2000) озаглавили свою статью "Пожары и их влияние на растительность сухих степей". Авторы использовали множественное число ("пожары"), в то время как статья описывает последствия одного пожара. Более того, авторы не располагают данными о состоянии выгоревшего участка степи до пожара - они лишь предполагают, что сравниваемые участки "до пожара относились к одной ассоциации и составляли один контур". Таким образом, авторы не только приписали различия между одновременно изученными участками степи воздействию пожара (основываясь лишь на предположении, а не на объективных данных), но и распространили свои выводы (основанные на наблюдении без повторностей) на воздействие всех пожаров на растительность всех сухих степей. Замечу, что статистический анализ эффектов, вызванных пожарами, довольно сложен; существуют различные точки зрения на то, что именно считать независимыми повторностями (Mantgeim et al., 2001).

Другой пример – эксперимент с разложением кленовых листьев, описанный С. Хелбертом (1984, примеры 1-5). Если мы проведем исследование на группе озер, расположенных в пределах некоторого ограниченного региона, то основной недостаток такого плана – получение пространственно скоррелированных наблюдений и, как результат, заниженная оценка изменчивости изучаемых параметров (Laberge et al., 2000). Формально исследователь может обсудить применимость (или неприменимость) результата к озерам других регионов – однако этот вывод будет уже не вероятностным (статистическим), а интуитивным.

Хотя любое выборочное исследование ставится с целью получения информации о генеральной совокупности, очевидно, что полная достоверность достигается только при изучении всей генеральной совокупности. Таким образом, выборочные параметры выступают в качестве приближенных оценок генеральных параметров; однако при корректном планировании эксперимента методы математической статистики позволяют строго определить интервал, в который (с заданной степенью достоверности) попадет значение генерального параметра. Если эксперимент спланирован некорректно, исследователь лишается возможности применить статистические методы и, как следствие, не может делать вероятностные выводы о генеральной совокупности.

Повторность в контролируемом эксперименте

Центральным понятием при планировании контролируемого {manipulative} эксперимента служит экспериментальная единица {experimental unit} – наименьшее подразделение исходного материала, которое может быть подвергнуто воздействию изучаемого фактора независимо от воздействия на другие экспериментальные единицы. Такая независимая экспериментальная единица рассматривается как истинная повторность {true replicate} при статистическом анализе данных. Замечу, что повторность далеко не всегда совпадает с выборкой; ошибки в разграничении этих понятий наиболее часто приводят к серьезным просчетам при интерпретации результатов экологических исследований.

Пример 3. Смирнов (2001) сравнивал различные характеристики растительности внутри огороженного участка леса (ограда использовалась для того, чтобы исключить влияние лосей) и вне этого участка. В каждом из двух вариантов опыта (огороженный и неогороженный участки) было заложено 35 площадок (=выборок); однако эти площадки нельзя считать независимыми друг от друга. Использование данного экспериментального плана действительно позволяет установить различия между двумя участками леса; однако автор не вправе делать вывод о том, что причиной наблюдаемых различий стало огораживание. С равной вероятностью я могу предположить, что обнаруженные автором различия между двумя участками леса вызваны различиями в микрорельефе, химизме почвы и множестве других неучтенных факторов – ведь двух идентичных участков леса просто не существует!

Исследователи обычно осознают необходимость проведения более чем одного наблюдения, однако далеко не всегда понимают различие между зависимыми и независимыми наблюдениями. Следовательно, один из первых этапов планирования эксперимента – определение того, что считать повторностью в конкретном исследовании, и обеспечение как минимум двух (лучше – больше) независимых повторностей для каждой градации применяемого воздействия. Так, в примере 3 для решения поставленной автором задачи необходимо было использовать как минимум 2 различные огороженные площадки (=независимые повторности) и 2 контрольные площадки. Необходимо четко представлять себе, что "физическое содержание" понятия "независимая повторность" определяется как задачами исследования, так и методикой проведения эксперимента. Так, при изучении влияния удобрений на рост сосны отдельно взятое дерево может быть как независимой повторностью (если удобрения вносили под случайным образом выбранные деревья), так и мнимой повторностью (если удобрения вносили на экспериментальные площадки, на каждой площадке изучали несколько деревьев, и характеристики индивидуальных деревьев использовали в статистическом анализе); в последнем случае истинной повторностью будет экспериментальная площадка.

Мнимые повторности возникают не только из-за некорректного планирования эксперимента, но и при анализе эффектов уже произошедших воздействий. Так, в примере 1 площадки, заложенные в пределах выгоревшего (либо контрольного) участка, представляют собой мнимые повторности: поскольку изучаемое воздействие (пожар) произошло однократно, то истинная (независимая) повторность для данного воздействия одна – выгоревший участок степи.

Сказанное выше не следует понимать как запрет на взятие нескольких выборок в пределах одной повторности. Такой экспериментальный план повышает точность оценки интересующего нас параметра, однако количество выборок никак не влияет на число степеней свободы статистической модели. На практике это означает, что значения, полученные при анализе нескольких выборок из одной повторности, следует усреднить: одной повторности должно соответствовать одно значение интересующей исследователя переменной (вопрос подробно рассматривается на одном из сайтов Интернета http://www.stat.vt.edy/~olover/Subsampl.html, посвященном прикладной статистике:). Другой способ анализа подобных данных – использование иерархических (nested) статистических моделей.

Источники ошибок в контролируемом эксперименте

Все контролируемые эксперименты подвержены различного рода влияниям (как случайным, так и закономерным), и эти влияния могут послужить причиной получения ошибочных выводов. Успех эксперимента, таким образом, зависит от способности исследователя уменьшить воздействие этих факторов настолько, чтобы они не могли повлиять на конечный результат, либо учесть воздействие этих факторов и отделить его от изучаемого эффекта. С.Хелберт (1964) в таблице 1 классифицирует неконтролируемые воздействия и указывает следующие способы устранения возможных последствий путем составления соответствующего плана эксперимента:

  1. наличие контрольных повторностей;

  2. наличие более чем одной повторности для каждой комбинации изучаемых факторов {replication};

  3. независимость повторностей;

  4. случайное соотнесение каждой из комбинаций изучаемых факторов с определенной экспериментальной единицей {randomization};

  5. "перемешивание" изучаемых воздействий {interspersion}.

Большинство из этих способов следует считать обязательными - даже если экспериментатор убежден в том, что некоторый источник помех отсутствует либо его эффект пренебрежимо мал.

В экспериментах с биологическими системами необходимость использования контроля диктуется в первую очередь тем, что система всегда претерпевает некоторые изменения с течением времени, и эти изменения могут быть учтены только при наличии контроля.

Пример 4. Остроумов (2000) изучал влияние химических сигналов на количество поднимающихся по ручью самок и самцов кеты. До применения экстрактов семенников и овариальной жидкости рыбы не выходили из пруда в ручей, однако стали заплывать в поток через 40 мин после внесения в него экстракта. В данном случае мы имеем дело с наблюдением без повторностей и без контроля, в котором связать наблюдаемый эффект (первый заход рыб в ручей) с применением экстракта можно только логически, но отнюдь не статистически – схема опыта не исключает возможности случайного совпадения событий. Кроме того, (1) последовательность внесения различных веществ также могла повлиять на результат, (2) поднимавшиеся по ручью рыбы не возвращались обратно в пруд к началу следующего эксперимента, то есть второй эксперимент ставился на популяции рыб, которые по каким-либо причинам  не отреагировали на вещество, внесенное в ходе первого эксперимента. Следовало не повторять один и тот же опыт в единственном ручье, а провести одинаковые опыты в различных ручьях.

Пример 5. Ильяшук и Ильяшук (2000) провели палеоэкологический анализ остатков комаров-звонцов в одном озере в зоне промышленного загрязнения. Различия в структуре сообщества до и после пуска комбината авторы интерпретировали как результат загрязнения. В данном случае мы также имеем дело с наблюдением без повторностей и без контроля, в котором связать изменение состава сообщества с промышленным загрязнением даже логически крайне сложно. Наблюдаемые изменения можно, например, объяснить глобальным потеплением; для проверки гипотезы о влиянии загрязнения следовало бы проанализировать как минимум два загрязненных и два незагрязненных озера, хотя для выявления эффектов загрязнения может потребоваться существенно бoльшая выборка. В частности, исследование комаров-звонцов в 22 Канадских озерах с различным уровнем загрязнения показало, что ни видовое разнообразие, ни численность не зависели от кислотности воды; абиотические параметры среды в целом объясняли лишь 9% наблюдаемой изменчивости (Halvorsen et al., 2001).

Повторяемость, рандомизация, и независимость выборок

Увеличение числа повторностей {replication} для каждой комбинации изучаемых факторов, снижает вероятность случайного отклонения выборочных оценок от истинного (генерального) значения параметра. Рандомизация {randomization} или случайное соотнесение каждой из комбинаций изучаемых факторов с определенной экспериментальной единицей возможное влияние экспериментатора на результат эксперимента. Таким образом, повторяемость и рандомизация выполняют двоякую функцию: увеличивают точность результата и позволяют применять статистические методы для получения логических выводов.

Необходимо подчеркнуть, что рандомизация требуется не только при соотнесении воздействия с определенной экспериментальной единицей, но и при определении последовательности проведения всех процедур.

Пример 6 (экспериментальный план автора). Оценивали влияние промышленного загрязнения на эффективность фотосинтетической системы II у березы извилистой. Отбор проб в течение суток выполняли на участках, выбранных случайным образом из различных зон загрязнения, поскольку были основания считать, что измеряемые показатели сильно зависят от температуры воздуха.

Пространственное размещение (перемешивание) повторностей

Если же мы планируем контролируемый {manipulative} эксперимент (например, внесение тяжелых металлов в почву), то первоочередной задачей исследователя становится правильное размещение экспериментальных площадок; некорректный экспериментальный план может свести на нет всю работу. Очевидно, что загрязняемые и контрольные площадки должны быть определенным образом перемешаны {interspersed}. Перемешивание выдвигает требования к физической структуре эксперимента, проще говоря – к тому, как объекты должны быть расположены в пространстве (или времени).

Пример 7 (по мотивам примеров 4-5 из Hurlbert, 1984, p. 193). Пусть мы собрали листья с 5 берез в грязном месте и 5 берез в чистом месте, упаковали навески в капроновые сетки и собираемся изучить влияние загрязнения тяжелыми металлами на скорость разложения листьев. Лучший способ размещения экспериментальных единиц (сеток): выбрать несколько площадок в изучаемом районе и в пределах каждой площадки случайным образом разложить пробы как загрязненных, так и чистых листьев.

Мнимые повторности {pseudoreplication}

В тех случаях, когда повторности сгруппированы в пространстве или во времени (Hurlbert, 1984, рис. 1, варианты В-1, В-2, В-3), либо все повторности связаны друг с другом (вариант В-4), либо все “повторности” представляют собой выборки, полученные в пределах одной экспериментальной единицы (В-5), нарушается одна из основных предпосылок корректного статистического анализа – независимость выборок. При этом попытка тестирования гипотезы приведет к некорректным выводам, поскольку будет основана на зависимых (мнимых) повторностях {pseudoreplication}. Так, несколько площадок, заложенных в пределах одного выгоревшего участка степи (пример 1) либо одного огороженного участка леса (пример 3), представляют собой мнимые повторности (схема В-5).

Следует отметить, что в силу объективных причин некоторые гипотезы не могут быть проверены в экспериментах с независимыми повторностями (например, в пределах Земли имеется всего одна повторность тропической зоны). Отчасти в связи с этим так много споров вокруг парникового эффекта: мы не только имеем единственную "экспериментальную повторность", но и не имеем контроля! Принципиальными моментами здесь становится корректное применение статистических методов и логика автора (Mantgeim et al., 2001; Oksanen, 2001) – четкое понимание ограниченности выводов и отсутствие неоправданных попыток генерализации.

Мнимые повторности в работах российских ученых

Для определения частоты встречаемости мнимых повторностей в работах российских экологов я проанализировал экспериментальные статьи, опубликованные в течение последних лет (1998-2001) в 6 журналах, издаваемых Российской Академией наук (табл. 1). Я считал эксперимент экологическим, если исследователь изменял среду обитания живых организмов – независимо от того, какие характеристики этих организмов (либо среды) изучались. Я просмотрел все статьи экологического профиля, опубликованные в течение одного-трех лет; продолжительность периода зависела от частоты публикации экспериментальных работ в конкретном издании, поскольку я ставил своей задачей проанализировать минимум 10 экспериментальных статей из каждого журнала. Я классифицировал статью как экспериментальную в том случае, если исследователь имел принципиальную возможность случайным образом {randomly} выбрать экспериментальные единицы для намеченного воздействия (Примеры 2-4, 7, 8). Статья не считалась экспериментальной в тех случаях, когда воздействие уже произошло и исследователь лишь изучает его последствия (Примеры 1, 5 и 6).

Таблица 1

Наличие повторностей, использование статистического анализа и встречаемость мнимых повторностей в публикациях российских авторов (курсивом выделены работы, предположительно основывающиеся на мнимых повторностях)

Журнал

Период
(года и номера журналов)

Просмотрено
статей*

Эксперимен-тальные
статьи

Наличие повторностей (П)
и использование статистики (С) в экспериментальных статьях

Число экспериментальных статей с различными типами мнимых повторностей **

П+С-

П+С+

П_С+

П_С-

Простые

Последова-тельные

Вторичные

Скры
тые

Истинные повторности

Мнимые повторности

Ботанический журнал

1998(1)-2000(6)

114

10

5

2

0

0

3

0

0

0

0

Журнал общей биологии

1998(1)-2001(6)

55

14

0

6

3

2

2

1

4

3

2

Зоологический журнал

1999(1)-2000(12)

94

11

0

4

4

3

0

2

1

4

0

Известия АН, сер. биол.

1999(1)-2001(6)

82

18

2

6

1

8

1

8

1

2

5

Лесоведение

2001(1-6)

61

11

1

1

2

5

2

5

0

2

4

Экология

2000(1)-2001(6)

156

22

2

5

3

9

3

8

2

3

0

ВСЕГО

 

562

86

10

25

13

27

11

24

8

14

11

*) Включены только статьи экологического профиля.
**) Одна статья может содержать более одного типа мнимых повторностей.

Поскольку понятие мнимых повторностей связано как с ошибками в планировании эксперимента, так и с некорректным использованием статистического анализа, все экспериментальные статьи (как и в работе Hurlbert, 1984) были разделены на четыре группы по сочетанию двух признаков: включал ли экспериментальный план независимые повторности и использовался ли статистический анализ для сравнения между различными воздействиями. Расчет средних значений в сочетании с некоторой оценкой изменчивости (стандартная ошибка, доверительный интервал) рассматривался как применение статистического анализа в тех случаях, когда автор считал приведение таких результатов достаточным для доказательства наличия либо отсутствия некоторого эффекта (см. ниже, скрытые мнимые повторности).

Статья классифицировалась как основанная на мнимых повторностях, если хотя бы в одном из описанных в ней экспериментов было нарушено требование случайного выбора экспериментальных единиц для планируемого воздействия, либо повторности, на основании которых делался вывод об эффекте воздействия, нельзя было считать независимыми. В тех случаях, когда приведенной в статье информации было недостаточно для оценки экспериментального плана (24 из 86 статей), я обращался к авторам за дополнительной информацией. Поскольку авторы 10 из 24 статей не ответили на мои вопросы в течение более чем двух месяцев, эти статьи я классифицировал как предположительно основанные на мнимых повторностях. Такое предположение я считаю достаточно обоснованным, поскольку в 12 из 14 случаев представленная авторами информация подтвердила мое исходное подозрение о том, что статья основана на мнимых повторностях.

Всего было просмотрено 562 статьи, из которых 86 (15.3%) попали в раздел экспериментальных работ с применением статистического анализа. Из этого числа 30 статей (34.9%) были несомненно основаны на мнимых повторностях; кроме того, 10 статей (11.6%) предположительно основывались на мнимых повторностях. При проведении лабораторных экспериментов частота мнимых повторностей составила 42.9% (24 из 56 статей),  при использовании мезокосмов - 60% (3 из 5 статей),  при проведении полевых экспериментов – 48.0% (12 из 25 статей). Если сравнивать только статьи, в которых применялся статистический анализ данных, то выборка Хелберта содержит 48 % статей, основанных на мнимых повторностях, в то время как рассматриваемая выборка публикаций российских экологов содержит 62% подобных статей.

Типы мнимых повторностей

Обычные мнимые повторности {simple pseudoreplication} - наиболее частая ошибка экологов, связанная с использованием единственной повторности для каждого типа воздействия.

Пример 9. Руднева и Жерко (2000) изучали влияние полихлорированных бифенилов на биохимические характеристики черноморской скорпены. Рыб содержали в двух аквариумах, в один из которых был добавлен исследуемый препарат (схема Н-5). Из каждого аквариума отбирали 6 особей, и средние значения некоторых параметров сравнивали между собой. Установленные различия между двумя аквариумами, как и в примерах 1 и 3, могут объясняться множеством причин – для выявления эффекта токсиканта следовало сравнивать как минимум два экспериментальных и два контрольных аквариума.

Пример 10. Осадчук (1999) изучал влияние фотопериода на ритмы размножения серебристо-черных лисиц, используя четыре группы самок. Три группы подвергались действию различных режимов искусственного освещения, а четвертая содержалась при естественном освещении. Установленные различия между группами, как и в примерах 1, 3 и 9, нельзя статистически связать с различиями в режимах освещения. Более того, нельзя исключить дистантного воздействия химических стимулов, выделяемых самками при наступлении эструса, на других самок, находящихся в том же помещении - то есть три экспериментальные группы, содержавшиеся в одном шеде, скорее всего нельзя считать независимыми друг от друга (схема Н-3). И, наконец, из текста следует, что контрольная группа содержались вне специально оборудованного шеда, где размещались три экспериментальные группы; это означает, что все три экспериментальных группы могут отличаться от контроля из-за различных условий содержания. Таким образом, рассматриваемый эксперимент не только был поставлен в одной повторности, но и не имел контроля.

Последовательные мнимые повторности {temporal pseudoreplication} – не одновременное (как в рассмотренных выше примерах), а последовательное взятие выборок в пределах одной и той же экспериментальной единицы.

Пример 11. При изучении межпопуляционных различий в бдительности и пугливости северных оленей Баскин и Скугланд (2001) определяли дистанцию, на которой стадо оленей обнаруживало человека, а также дистанцию, при достижении которой стадо оленей обращалось в бегство. В данном эксперименте в качестве повторности следовало использовать стадо, то есть либо проводить один эксперимент с одним стадом, либо усреднять значения, полученные в ходе нескольких последовательных экспериментов с одним и тем же стадом. Другой способ обработки подобных данных – использование статистических методов, учитывающих зависимость последовательных наблюдений друг от друга (repeated measure analysis). Однако авторы рассматривают последовательные наблюдения за одним стадом как независимые повторности, а информацию о числе изученных стад не приводят вообще. В результате рассчитанная авторами достоверность межпопуляционных различий, несомненно, сильно завышена.

Пример 12. Лаптева и Солнцева (2000) изучали влияние дрейссены и молоди леща на микроорганизмы, используя 7 мезокосмов (=независимых повторностей). Однако авторы рассматривали в качестве повторностей индивидуальные пробы, взятые из этих мезокосмов (семь дат проведения замеров, три замера в каждом мезокосме в каждую дату: 147 выборок = мнимых повторностей). Основной вывод статьи – присутствие … дрейссены … привело к снижению обилия и активности микроорганизмов, тогда как молодь рыб стимулировала их развитие”. Мною выполнена проверка обоснованности этого вывода с использованием двухфакторного дисперсионного анализа (лещ есть - нет, дрейссена есть - нет) к средним значениям биомассы микроорганизмов, которая подтвердила выводы авторов – и дрейссена, и лещ влияют на биомассу микроорганизмов. Этот пример показывает, что далеко не всегда обнаружение мнимых повторностей в опубликованной статье заставляет пересматривать выводы авторов. В то же время в трех мезокосмах с молодью леща средняя биомасса микроорганизмов была ниже, чем в трех мезокосмах без молоди леща, что противоречит выводу авторов. Данная проблема, однако, не связана с наличием мнимых повторностей, - скорее, это результат подмены статистического анализа "интуитивным" сравнением между мезокосмами.

Пример 13. В таблице 1 приведены частоты публикации статей, основанных на мнимых повторностях, в различных академических журналах. Возникает закономерный вопрос: различаются ли журналы по частоте публикации статей, содержащих методические ошибки подобного рода? Если в качестве повторности взять один номер журнала, а в качестве исследуемой переменной – долю экспериментальных статей, основанных на мнимых повторностях, то мы получим схему с последовательными мнимыми повторностями. Корректный способ сравнения – проверка гетерогенности выборки посредством G-статистики (описание метода: Sokal, Rohlf, 1995, p. 715-718). Мы видим, что сравниваемые журналы отличаются по частоте публикации статей, основанных на мнимых повторностях; особенно велико различие между "Ботаническим журналом", не опубликовавшим за рассматриваемый период ни одной статьи такого рода, и всеми остальными изданиями. К сожалению, приходится констатировать, что это отличие возникло не вследствие лучшего планирования экспериментов, а исключительно благодаря отсутствию даже простейшей статистической обработки результатов в 8 из 10 экспериментальных статей, опубликованных "Ботаническим журналом" за рассматриваемый период. Однако и оставшиеся журналы достоверно (G = 40.56, df = 4, р < 0.001) различаются по частоте публикации статей, основанных на мнимых повторностях: пальму первенства делят "Лесоведение" и "Зоологический журнал" (по 63.6 %), в то время как "Журнал общей биологии" публикует статьи, основанные на мнимых повторностях, реже других рассматриваемых журналов (35.7 %).

Необходимо отметить, что в ряде исследований последовательное взятие выборок служит неотъемлемым элементом экспериментального плана; однако методы обработки таких данных существенно отличаются от методов сравнения одновременно взятых независимых выборок (смотри, в частности, обзор Ende, 1997).

Вторичные мнимые повторности в корректно заложенном эксперименте {sacrificial pseudoreplication}, когда исследователи "создают" мнимые повторности путем некорректного применения статистических методов. Типичная ошибка, частота которой вызывает удивление, - "дробление" истинных повторностей: из каждой экспериментальной единицы берут несколько выборок (=мнимых повторностей); затем выборки из "одинаковых" повторностей объединяют (теряя информацию о принадлежности выборок к определенным повторностям), и сравнивают между собой не истинные повторности, а группы выборок (мнимые повторности).

Пример 14. Седых и др. (2001) изучали воздействие различных концентраций загрязнителя на прорастание семян тополей. Эксперимент был заложен в нескольких повторностях (повторность = 50 семян тополя, помещенных в одну чашку Петри); однако при анализе длин 7-дневных проростков были замерены семь проростков в каждой повторности в пределах одного варианта опыта, и при анализе эти замеры были объединены: в итоге каждый вариант был представлен 28 проростками (=мнимыми повторностями), а не 4 чашками Петри (=истинными повторностями). Такой подход статистически неправомерен: следовало усреднить значения всех замеров в пределах каждой из повторностей (одна чашка Петри – одно среднее значение длины проростка), и последующее сравнение между вариантами опыта основывать на полученных средних значениях. Несомненно, что в этом случае достоверность различий между вариантами опыта сильно понизится или вовсе исчезнет.

Пример 15. Сафонкин (2000) выкармливал гусениц всеядной листовертки на различных видах растений. Из методики очевидно, что гусениц выращивали в группах на ветках кормовых растений; эти группы можно условно считать независимыми повторностями (хотя обычно в экспериментах такого рода независимыми повторностями считают группы личинок, выкармливаемых на различных особях кормового растения). Автор не приводит данных о числе истинных повторностей (=групп) и рассматривает гусениц / куколок как повторности, тем самым явно завышая достоверность различий между кормовыми растениями.

Cкрытые мнимые повторности (implicit pseudoreplication), когда исследователь не привел значения статистических тестов и уровни достоверности для сравнения, основанного на мнимых повторностях, однако опубликовал достаточно информации для проведения такого сравнения. Если при этом автор делает выводы о наличии либо отсутствии некоторого эффекта, то есть подразумевает возможность статистического сравнения, есть все основания говорить о скрытых мнимых повторностях. Очевидно, что в качестве противоположной группы должны рассматриваться явные мнимые повторности – ситуации, когда сравнение между мнимыми повторностями проводилось с использованием статистических методов; эти два типа мнимых повторностей могут быть выделены в пределах каждой из трех групп, рассмотренных выше.

Пример 16. Орехова (2001) изучала биохимию и жизнеспособность семян кедра корейского при разных способах хранения. По крайней мере некоторые из условий хранения (например, типовой склад Арсеньевского лесхоза) не имели повторностей. Опубликованные данные (средние значения с ошибкой) в принципе позволяют провести статистический анализ; в тексте содержатся "интуитивные" сравнения между этими значениями по вариантам опыта. В данном случае можно говорить о простых скрытых мнимых повторностях.

Пример 17. Сидельников и Степанов (2000) изучали влияние плотности популяции на рост и регенерационную способность улитки Achatina fulica. В четырех террариумах были созданы четыре различные плотности улиток – то есть каждая плотность была представлена единственной повторностью. Авторы проводят статистический анализ и устанавливают достоверность различий в некоторых характеристиках улиток между террариумами. Эти результаты далее интерпретируются как эффект плотности, что некорректно.

Заключение

По не вполне понятным причинам проблема мнимых повторностей - одна из ключевых методических проблем, принципиальным образом влияющих на интерпретацию результатов исследований, - практически полностью выпала из поля зрения российских экологов. Рассматривая проблему в более широком контексте, не могу не отметить, что одной из причин сложившейся неблагополучной ситуации стала крайне низкая статистическая грамотность российских экологов (как авторов публикаций, так и рецензентов). В частности, особенно прискорбно "создание" мнимых повторностей при некорректном анализе хорошо спланированного эксперимента, вызванное исключительно отсутствием базовых знаний по прикладной статистике. Более того, неумение (или же нежелание) использовать статистические методы иногда приводит к публикации выводов (основывающихся на высказываниях типа "легко видеть"), которые не только не вытекают из приводимого авторами материала, но и прямо противоречат ему. В качестве примеров могу упомянуть ошибочное заключение о положительном влиянии молоди леща на микроорганизмы в рассмотренной выше работе Лаптевой и Солнцевой (2000), а также выводы Ильина и Смирнова (2000) о связи распространения летучих мышей с рельефом, критический анализ которых опубликован ранее (Козлов, 2001).

В контексте данной статьи я использую (за неимением лучшего) термин "российские экологи" для обозначения экологов бывшего СССР, которые в основном публикуют свои исследования на русском языке.

 


Журнал общей биологии. - 2005. - Т. 66, № 1. - С. 90-93

О МЕТОДИЧЕСКИХ АСПЕКТАХ ПОСТАНОВКИ ЭКОЛОГИЧЕСКИХ ЭКСПЕРИМЕНТОВ (РЕПЛИКА НА СТАТЬЮ М.В.КОЗЛОВА)

Д. В. Татарников

В вышедшей недавно статье М.В. Козлова (Козлов, 2003) работы многих отечественных экологов были подвергнуты критике за статистические ошибки. Однако в результате анализа приведенных автором примеров представляется, что отнюдь не во всех из них действительно имели место именно те ошибки, которые в них находит М.В. Козлов.

Дробление экспериментальных площадок М.В. Козлов уподобляет дроблению поверхности однократно подброшенной монеты. Это подразумевает, что факторы, вызывающие случайное варьирование измеряемых параметров, действуют на экспериментальную площадку как на единое целое.

Истинные повторности отличаются от мнимых тем, что факторы, вызывающие случайное варьирование измеряемых параметров, действуют на такие повторности независимо. Живые организмы дискретны и реагируют на воздействия физически, а значит и статистически независимо. Сообщество живых организмов с точки зрения случайного варьирования его параметров - это множество, а не единое целое. Если продолжить аналогию с подбрасыванием монеты, то при экспериментальном воздействии на некоторую площадку подбрасывается столько монет, сколько изучаемых организмов на ней обитает. Например, каждое дерево реагирует на внесение удобрений статистически независимо и в случае внесения удобрений под отдельные деревья, и в случае их внесения сплошь по всей площади. Дробление такой экспериментальной площадки - это разделение множества на подмножества, поэтому аналогия с дроблением поверхности монеты неуместна. Мнимые повторности возникнут в случае многократного определения реакции одного и того же организма в ходе выборочных учетов.

В работе И.И. Рудневой и Н.В. Жерко (2000) определение биохимических параметров отдельных рыб из одного аквариума дало истинные повторности вследствие независимой реакции живых организмов на факторы среды, как экспериментальный, так и случайные. Однако, несмотря на то, что идентичность прочих физико-химических параметров среды в опытном и контрольном аквариумах контролировалась технологически, в силу случайных причин такие различия все-таки могли иметь место. Для того, чтобы исключить влияние "эффекта аквариума" на результат эксперимента, было необходимо поместить каждую рыбу в отдельный аквариум. В любом случае называть использованные в этой работе повторности мнимыми некорректно. Мнимые повторности возникли бы при многократном определении биохимических параметров одной и той же особи скорпены.

В качестве примера автор приводит работу К.А. Смирнова (2001), в которой определялся эффект огораживания (исключение влияния крупных травоядных) на растительный покров. Эффект огораживания оценивался по результатам сравнения динамики различных параметров растительности на 35 площадках, заложенных на огороженном участке, с их динамикой на 35 площадках за его пределами за пятилетний период после огораживания. В работе К.А. Смирнова все 35 площадок в пределах огороженного участка разные, поскольку "двух идентичных участков леса не существует", а, cледовательно, являются независимыми повторностями. Огороженный участок - не аквариум: факторы среды и растительность на нем варьируют от точки к точке. Поэтому безразлично, имеет ли каждая площадка свою собственную изгородь или она общая для всех площадок. Все площадки, контрольные и экспериментальные, заложены в типологически идентичном однородном участке леса. Поэтому относительное пространственное размещение контрольных и экспериментальных площадок в пределах участка не имеет значения на принятом уровне детализации. Статистические методы использованы в работе для обоснования неслучайности наблюдаемых различий в динамике параметров растительности на огороженных и неогороженных площадках. В аннотации к статье К.А. Смирнов указывает, что влияние лося он характеризует "на примере ельника-кисличника". Статистических ошибок в работе нет.

Представляется неверной и интерпретация ошибок в работе Фишера и Маккензи (Fisher, Mackenzie, 1923), которая воспроизведена М.В. Козловым из статьи Хелберта (Hurlbert, 1984). Источником случайного варьирования в данном эксперименте были почвенная неоднородность и индивидуальные различия растений картофеля одного сорта. Повторности в опыте с навозом не были мнимыми, как утверждает М.В. Козлов, поскольку упомянутые особенности варьировали не только в пределах всего поля, но и в пределах любой его половины. Но нельзя не согласиться, что для правильной постановки этого эксперимента было необходимо пространственное перемешивание удобренных навозом и контрольных площадок.

Для снижения уровня случайного варьирования, на фоне которого определяется эффект экспериментального воздействия, активно рекомендуется метод случайных блоков {randomized block design} ("Design...", 1993). Однако его применимость в полевых экспериментах с растительными сообществами проблематична, если объектом исследования является реакция отдельных растении или даже отдельных побегов. Одной из возможностей исключить неоднородность экспериментальных площадок представляется использование "виртуальных блоков".

Нельзя не согласиться с тем, что всем экологам необходимо постоянно повышать свою квалификацию в сфере методики постановки полевых экспериментов и статистического анализа их результатов. Это поможет избегать досадных ошибок при постановке экспериментов, обесценивающих затраченные усилия на их проведение, правильно интерпретировать полученные результаты, а также не следовать бездумно всем рекомендациям статистиков-профессионалов.

 


Журнал общей биологии. - 2006. - Т. 67, № 2. - С. 145 - 152

МНИМЫЕ ПОВТОРНОСТИ, БЕСПЛОДНЫЕ ДИСКУССИИ, И ИНТЕРНАЦИОНАЛЬНАЯ СУЩНОСТЬ НАУКИ: ОТВЕТ Д.В. ТАТАРНИКОВУ

М.В. Козлов, С.Х. Хелберт

Ни в одной области знаний качество книг либо более коротких публикаций (статей) не снизилось так, как в науке … исправить ситуацию можно, если каждый будет писать меньше работ более высокого качества… Среди современных ученых укоренилось убеждение, что публикация – точнее, множество публикаций, - их неотъемлемое право… публикация статьи из выдающегося события превратилась в рутину, и публикация любого и каждого результата стала нормой… а процесс публикации практически утратил свою прежнюю функцию контроля качества… Студенты ни в коем случае не должны забывать о том, что было опубликовано ранее… Огромная волна болтовни, содержащейся в современной профессиональной литературе, может изолировать ученых от их интеллектуального фундамента.

K.С. Томсон (Thomson, 1984)

Должна ли российская наука идти особым путем?

Мы польщены, удивлены и обеспокоены публикацией критических замечаний Д.В. Татарникова (2005). Польщены, поскольку появление этой публикации свидетельствует о том, что первая из задач статьи М.В. Козлова (2003) – привлечь внимание российских ученых к проблеме мнимых повторностей.

в экологических исследованиях, – была достигнута. Мы надеемся, что теперь даже те экологи, которые не заинтересовались статьей М.В. Козлова, обратят на нее внимание и, возможно, ознакомятся с публикацией Хелберта (Hurlbert, 1984), в которой впервые было дано исчерпывающее описание проблемы.

Удивление, однако, вызывает слабая обоснованность критических замечаний. Д.В. Татарников поделился с читателями "Журнала Общей Биологии" своими личными впечатлениями, не ознакомившись с многочисленными публикациями (помимо Hurlbert, 1984), в которых обсуждается рассматриваемая проблема. В частности, Д.В. Татарников считает корректным статистический анализ, проведенный авторами трех работ, которые были классифицированы М.В. Козловым как основанные на простых мнимых повторностях. Однако структура экспериментов, описанных в этих работах, и связанные с ней статистические проблемы весьма сходны с обсуждавшимися ранее. Сходные ошибки часто встречаются и в медицинских экспериментах, где они обозначаются как "фиктивные повторности" {spurious replication}, "инфляция повторностей" {trial inflation}, либо "проблема выбора единицы анализа" {the unit of analysis problem or error} (Whiting-O'Keefe et al., 1984; Andersen, 1990; Altman, Bland, 1997). Хотя понятие "pseudoreplication", которое наиболее адекватно переводится как "статистический анализ, основанный на мнимых повторностях", встречается не во всех перечисленных выше работах, и мы согласны далеко не со всеми выводами указанных авторов, все цитированные исследования объединяет серьезный подход к проблеме.

На фоне этих публикаций критика Д.В. Татарникова выглядит поверхностной. Практически любой студент, изучавший статистику в университетах Северной и Южной Америки, Западной Европы, Австралии либо некоторых странах Азии, знаком с проблемой мнимых повторностей. Однако рецензенты и редакторы уважаемого биологического журнала не смогли оценить уровень статьи Д.В. Татарникова и поместили ее в рубрику “Научные дискуссии”, что само по себе настораживает.

Основная идея статьи Д.В. Татарникова лучше всего описывается известным русским афоризмом: Если нельзя, но очень хочется, - то можно”. Хотя такой подход может оказаться выигрышным в некоторых ситуациях, он, безусловно, опасен в науке, – если, конечно, российские экологи не намереваются (вслед за некоторыми политиками) заявить, что русская наука идет особым путем и подчиняется лишь своим собственным правилам. Однако в этом случае мы должны быть готовы к тому, что следующим объектом "научной дискуссии" станет таблица умножения.

Сколько раз можно наступать на одни и те же грабли?

Даже если мы не разглядели грабли в первый раз, наш лоб имеет право надеяться на наше адаптивное поведение после одной-двух близких встреч с их рукояткой. Это поможет следовать совету Отто фон Бисмарка (известного также как Железный Канцлер) – учиться на ошибках других вместо того, чтобы ошибаться снова и снова. Применительно к научно-исследовательской работе этот совет можно переформулировать как необходимость изучать и творчески использовать опыт, накопленный международным научным сообществом. Особенно важным представляется отказ от бесплодных дискуссий; и если российская наука пойдет именно этим “особым” путем, то она, бесспорно, заслужит горячее одобрение международного научного сообщества.

"Экспериментальная единица" и "повторность": анализ понятий

Мы не ограничимся обсуждением точки зрения Д.В. Татарникова на проблему мнимых повторностей, а попытаемся разъяснить некоторые концептуальные и терминологические проблемы, связанные с планированием экспериментов и статистическим анализом полученных результатов. Ключевую роль в понимании рассматриваемой проблемы играют понятия экспериментальной единицы, наблюдаемой / оцениваемой единицы и статистической независимости.

Вывод о сходстве либо различии двух групп объектов может быть сделан тогда и только тогда, когда различия между группами сравниваются со внутригрупповой изменчивостью. При этом критическое значение имеет тот уровень, на котором изменчивость измеряется внутри группы. Очевидно также, что внутригрупповая изменчивость может быть оценена только в тех случаях, когда группа состоит из двух и более объектов. В исключительных случаях, однако, возможно применение линейной регрессии либо дисперсионного анализа для корректного выявления различий между единственной экспериментальной повторностью и группой контрольных повторностей (Milliken, Johnson, 1989; Sokal, Rohlf, 1995, p. 292, 466; Hurlbert, 2004, p. 594).

Хотя при анализе результатов любых экспериментальных исследований ключевым понятием служит экспериментальная единица (experimental unit), большинство статистических учебников не приводит никакого определения этого понятия. Мы предлагаем следующее определение, базирующееся в основном на работе Кокса (Cox, 1958):

Экспериментальная единица – это наименьший объект (система, существо или иная единица экспериментального материала), который экспериментатор выбирает для некоторого воздействия (или комбинации воздействий) и который испытывает это воздействие независимо от остальных подобных объектов. Независимость должна соблюдаться на всех стадиях эксперимента, при которых объект может претерпеть учитываемые экспериментатором изменения. Независимость в контексте данного определения означает, что любые два объекта, подвергающиеся одному и тому же воздействию, в остальном находятся в условиях, сходство между которыми в среднем не превышает сходства между условиями, в которых находится любая пара объектов, испытывающих различные воздействия (С. Хелберт, неопубликованный курс лекций).

Экспериментальная единица может состоять из нескольких измеряемых / оцениваемых единиц {evaluation units}, определяемых как “элемент экспериментальной единицы, служащий основой для получения одной индивидуальной оценки либо замера” (Urquhart, 1981; Hurlbert, 1990; Hurlbert, White, 1993):

Экспериментальная единица может содержать несколько наблюдаемых единиц. Например, совместно обучаемая группа студентов может быть экспериментальной единицей, в то время как каждый из входящих в эту группу студентов может служить наблюдаемой единицей. Это разграничение понятий ... чрезвычайно важно, поскольку при оценке результатов воздействия экспериментальная единица должна рассматриваться как целое. Различия между наблюдаемыми единицами в пределах одной экспериментальной единицы обычно не учитываются при определении ошибки эффекта воздействия. (Kempthorne, 1952, p. 163; 1979, p. 163).

Если каждое воздействие прилагается к единственной экспериментальной единице, а внутригрупповая изменчивость оценивается на основании изучения нескольких выборок {samples} либо измеряемых / оцениваемых единиц {evaluation units}, то статистический анализ будет основан на простых мнимых повторностях {simple pseudoreplication}. Именно такая ошибка была допущена в работах И.И. Рудневой, Н.В. Жерко (2000) и К.А. Смирнова (2001), выбранных Д.В. Татарниковым (2005) для обсуждения проблемы. Эта ошибка, к сожалению, встречается очень часто: четыре обзорные статьи, в которых приведен детальный анализ типичных примеров, цитируют 59 публикаций с ошибками подобного типа. Мы искренне изумлены тем, что некоторые ученые до сих пор считают подобную схему статистического анализа корректной.

Далеко не все аспекты дискуссии приложимы к русскоязычной терминологии (которая, в применении к проблеме мнимых повторностей, еще находится на ранних стадиях развития). Отметим лишь, что необходимо строго различать (1) экспериментальные планы, включающие воздействия без повторностей (что иногда необходимо и само по себе не является ошибкой) и (2) статистические выводы относительно эффекта воздействия, основанные на изменчивости внутри единственной экспериментальной единицы, а не на изменчивости между несколькими экспериментальными единицами.

Особо подчеркнем, что описание, как структуры эксперимента, так и применявшихся методов анализа данных, должно всегда четко отражать уровень (либо уровни), на котором были взяты анализируемые повторности. При этом желательно использовать такие выражения, как “несколько экспериментальных единиц”, “несколько выборок, взятых из одной экспериментальной единицы”, “несколько измеряемых / оцениваемых единиц”. Соотношение между структурой эксперимента и использованием повторностей не может быть оценено, если структура эксперимента неизвестна. Повторности не могут рассматриваться как “истинные” либо “мнимые” сами по себе – лишь их использование в статистическом анализе может расцениваться как правильное либо ошибочное.

Основываясь на приведенных выше понятиях, попытаемся разобраться, какие смысловые либо лингвистические проблемы не позволили Д.В. Татарникову (2005) согласиться с тем, что статистический анализ во всех четырех обсуждаемых им примерах проведен некорректно, то есть основан на мнимых повторностях.

Анализ примеров: в чем причина ошибок?

Несколько рыб или несколько аквариумов? Проведенный статистический анализ И.И. Руднева, Н.В. Жерко (2000) был корректно классифицирован М.В. Козловым (2003) как основанный на простых мнимых повторностях. В этом опыте в качестве экспериментальной единицы, бесспорно, выступает аквариум (вместе со всеми содержащимися в нем рыбами), поскольку (смотри определение) любые две рыбы из одного аквариума находились в более сходных условиях, чем любые две рыбы из разных аквариумов. Более того, рыбы в пределах одного аквариума, скорее всего, взаимодействовали друг с другом – например, на биохимическом либо поведенческом уровне, - что также противоречит утверждению о независимости замеров, проводившихся на нескольких рыбах из одного аквариума. Согласно приведенным выше определениям, рыбы, содержавшиеся в одном аквариуме, могут рассматриваться лишь как измеряемые / оцениваемые единицы.

Экспериментаторы всегда стараются выровнять условия и достичь максимальной однородности экспериментальных единиц для повышения чувствительности эксперимента. Однако, несмотря на все прилагаемые усилия, аквариумы, теплицы, делянки, клетки с мышами и вообще любые экспериментальные единицы будут всегда отличаться друг от друга. Без учета изменчивости между экспериментальными единицами корректный статистический анализ невозможен в принципе.

Сравнение двух широко известных учебников позволяет лучше понять как сущность проблемы, так и ошибки в ее интерпретации. Стил и Тори (Steel, Torrie, 1980: 125), вслед за Кемпторном (Kempthorne, 1952), недвусмысленно пишут, что если 50 цыплят содержатся в одном вольере и кормятся вместе, то экспериментальная единица состоит из 50 цыплят. Нам потребуется другой такой же вольер с 50 цыплятами для того, чтобы оценить изменчивость между однотипными экспериментальными единицами”.

В противоположность этим авторам, Сокаль и Рольф в первом (1969) и втором (1981) изданиях своего учебника (Sokal, Rohlf, 1995) приводили пример, в котором каждый из четырех резервуаров с рыбами подвергался различным воздействиям, то есть выступал в роли экспериментальной единицы. Однако проведенный указанными авторами дисперсионный анализ был основан на характеристиках отдельных особей (= оцениваемых / измеряемых единицах), то есть на мнимых повторностях (Hurlbert, 1984). Тем самым популярный учебник, по сути, защищал и пропагандировал некорректный метод статистического анализа, что отчасти объясняет, почему литература по физиологии рыб и аквакультуре изобилует простыми мнимыми повторностями. В 1985 году Лиза Вуд, в то время студентка С. Хелберта, оспорила правомерность этого примера в личном письме Роберту Сокалю, в результате весь многостраничный раздел был (без комментариев) изъят авторами из последнего издания.

Одна огороженная площадка в сравнении с неогороженной территорией. Организация эксперимента, проводимого К.А. Смирновым (2001), однозначно определяет огороженный участок как экспериментальную единицу (смотри определение), эффект огораживания может быть статистически выявлен только по отношению к изменчивости между подобными (то есть огороженными) участками. Изменчивость между экспериментальными площадками внутри огороженной территории относится к другому, более низкому уровню (между измеряемыми / оцениваемыми единицами в пределах одной экспериментальной единицы). Использование этой изменчивости пригодно для выявления различий между огороженным и неогороженным участками, однако подобный анализ не может статистически доказать, что наблюдаемые различия возникли вследствие огораживания.

Финансовые и организационные проблемы, связанные с огораживанием относительно крупных экспериментальных площадок, естественным образом ограничивают экспериментатора. Если исследователь в состоянии заложить лишь один огороженный участок, ему следует спланировать несколько участков, желательно одинакового размера и формы, после чего случайным образом выбрать среди них участок для огораживания. должен быть, предназначенных для проведения эксперимента.

Отдельное дерево или экспериментальная площадка? Обращаясь к определению экспериментальной единицы, мы и тут вынуждены заключить, что два дерева на одном и том же участке леса (удобренном либо контрольном) находятся в среднем в более сходных условиях, чем два дерева на разных участках. Из этого следует, что деревья в пределах одного участка являются измеряемыми / оцениваемыми единицами, в то время как в качестве экспериментальной единицы выступает участок леса.

Отвлекаясь от данного примера, интересно было бы узнать мнение Д.В. Татарникова об аналогичном сельскохозяйственном эксперименте, сопоставляющем урожай зерновых на одной удобренной и одной контрольной делянке. Если мы будем придерживаться его точки зрения, то для корректного выявления эффекта удобрений можно использовать множественные площадки, скажем, по 4 м2 каждая, заложенные в пределах каждой из двух делянок. Выходит, что агрономы всего мира напрасно тратят время и деньги, проводя эксперименты в соответствии со стандартным протоколом, предписывающим случайным образом выбирать несколько площадок для каждого типа воздействия!

Статистическая независимость как ключевое понятие

Ошибочные выводы Д.В. Татарникова (2005) основаны преимущественно (если не исключительно) на смешении концепций экспериментальной единицы и измеряемой/оцениваемой единицы, которые принципиально различаются как статистической независимостью, так и использованием в статистическом анализе (Kempthorne, 1952; Steel, Torrie, 1980; Urquhart, 1981; Hurlbert, 1984; Whiting-O'Keefe et al., 1984; Hurlbert, White, 1993).

Лишь немногие книги, посвященные планированию эксперимента, используют согласованную терминологию и четко определяют статистическую независимость. Это касается как книг, написанных статистиками, так и книг, написанных биологами, психологами либо представителями других научных дисциплин. Одна из наиболее распространенных ошибок – мнение о том, что статистическая независимость является неотъемлемой чертой выборки измерений, зависящей исключительно от того, как эта выборка была взята. На самом деле, однако, статистическая независимость

может быть оценена только по отношению как к структуре данных, так и к проверяемой гипотезе. Если мы имеем несколько случайным образом полученных оценок плотности некоего вида насекомых на каждой из двух площадок, “ошибки измерения” будут обладать статистической независимостью, необходимой для проверки нулевой гипотезы об отсутствии различий между двумя площадками. Однако если одна из площадок была обработана инсектицидом, а вторая служит контролем, те же самые “ошибки измерения” не будут обладать статистической независимостью, необходимой для проверки нулевой гипотезы об отсутствии различий между опытом и контролем (Hurlbert, 1997).

Заключение

Опыт, накопленный мировым научным сообществом, с очевидностью доказывает, что эксперименты без повторностей дают существенно меньше информации, чем эксперименты с независимыми повторностями.

Незнание статистики приводит к тому, что анализ, основанный на мнимых повторностях, встречается даже в тех случаях, когда каждое воздействие применялось к нескольким экспериментальным единицам. Некорректно проведенный статистический анализ может привести к гораздо более неприятным последствиям, чем полный отказ от статистического анализа. Поэтому мы, безусловно, согласны с Д.В. Татарниковым в том, что экологам следует уделять больше внимания статистике.

Д.В. Татарников (2005) заканчивает свою статью советом не следовать бездумно [sic!] всем рекомендациям статистиков-профессионалов”. Откровенно говоря, ни один из нас не является профессиональным статистиком, - мы лишь биологи, осознающие роль статистики в современной экологии.

Дальше К следующему разделу Назад К предыдующему разделу Начало К началу разделу Список К оглавлению На главную На главную страницу сайта