Мнимые повторности и планирование экологических полевых экспериментов

Дальше

Назад

Конец

Список

На главную

Глава 2. СТРАТЕГИЯ И ТАКТИКА ПЛАНИРОВАНИЯ МОНИТОРИНГОВЫХ НАБЛЮДЕНИЙ ДЛЯ ИЗУЧЕНИЯ ЭКОСИСТЕМ РАЗЛИЧНОГО ТИПА

________________________________________________________________________

По первоначальному замыслу содержание настоящей главы было ограничено темой, представленной в заголовке, с развернутым анализом особенностей планирования экспериментальных наблюдений при изучении экосистем различного типа. Однако в связи с решением редакции Журнала общей биологии прекратить дальнейшую публикацию материалов по "мнимым повторностям", создалось впечатление некоторой незавершенности начавшейся было дискуссии. Обсуждение на страницах журнала носило, по сути, односторонний характер поучающего и уличающего монолога М.В. Козлова, повторившего нам, не всегда в "парламентских выражениях", ход рассуждений С. Хелберта 20-летней давности. Принимая во внимание важность и потенциальную неисчерпаемость проблемы корректного анализа данных, мы сочли целесообразным открыть цикл оригинальных публикаций сборника двумя статьями на эту тему.

2.1. МИФЫ И РЕАЛЬНОСТЬ МНИМЫХ ПОВТОРНОСТЕЙ С. ХЕЛБЕРТА

В.К. Шитиков, Н.А. Цейтлин, В.Н. Якимов

О всякой вещи хорошо выразиться двояко, чтобы поставить ее на правую и левую ногу; хотя истина и может стоять на одной ноге, но для того, чтобы двигаться, ей нужно две.

Фридрих Ницше (“Странник и его Тень”)

Сложность и неоднозначность обсуждаемой проблемы обнаружили различие точек зрения авторов настоящих заметок, представителей разного профиля, связанных с решением задач экспериментальных исследований в экологии. Это привело к мысли представить критический обзор статьи С. Хелберта (1984) в форме свободного обмена мнений трех виртуальных личностей: А – системного аналитика, занимающегося проблемами обработки экологических данных, Б – биолога, параллельным увлечением которого является математика, и С – специалиста в области прикладной статистики. Любые попытки читателей персонифицировать перечисленные образы носят случайный характер, и авторы никакой ответственности за это не несут. Итак…

Три значения, три составных части статьи С. Хелберта

Б. В статье Стюарта Хелберта “Pseudoreplication and the design of ecological field experiments” (1984) были досконально рассмотрены особенности и закономерности проведения полевых экологических экспериментов, и это вызвало широкий резонанс в научной общественности. Почему все-таки так получилось, что большинство российских ученых с ней оказались не знакомы?

С. Я в это время изучал классические труды А.Н. Колмогорова, Н. Дрейпера и Г. Смита, Г. Шеффе, Дж. Гласса и Дж. Стэнли, перечитывал книги Ю.П. Адлера, В.В. Налимова, В.В. Федорова, В.Г. Горского, В.З. Бродского, В.А. Вознесенского и других, пытался использовать полученные знания на практике. Рекомендую почитать работы названных авторов – в них даются фундаментальные представления по теме нашего обсуждения. Кстати, статья С. Хелберта прошла совершенно незамеченной в среде специалистов по прикладной статистике. Например, президент Российской ассоциации статистических методов, проф. А.И. Орлов, тщательно следящий за всеми заметными событиями в этой науке, тоже недоуменно развел руками.

А. Я также в свое время не увидел ничего "ошеломляющего" в пространных рассуждениях о пользе репликации и повторности в экологическом эксперименте. Посчитал все это отвлеченной "беллетристикой". И о С. Хелберте узнал не в связи со статьей (1984), а как об авторе некоторой формализации (1971) довольно неуклюжего "метода разрежения" Г. Сандерса, оценивающего число видов в биотопе. Кстати, давайте примем такое предложение. Мы все нисколько не сомневаемся, что С. Хелберт – видный ученый и личность, заслуживающая всяческого уважения…

С. Хотя несколько озадачивает сделанный им строгий укор всей российской науке, не желающей читать взахлеб его труды. А эпиграф к другой собственной статье (2004) “чем разглагольствовать, читайте мои труды” – это же прямая цитата из профессора Выбегаллы…

А. И поэтому давайте говорить не о С. Хелберте, а исключительно о его работе (1984), которую мы для удобства будем называть просто Статьей.

Итак, рассмотрим Статью в трех аспектах: а) научно-методическом, б) терминологическом, в) воспитательном и "санитарно-регламентирующем". Начнем, пожалуй, с последнего, как наиболее важного и неоспоримого.
Воспитательная и регламентирующая роль Статьи

Б. Сам факт такого широкого обсуждения свидетельствует о том, что тема, затронутая С. Хелбертом, чрезвычайно актуальна и находит живейший отклик (независимо от оценочных суждений) экологической общественности. Причем на данный момент ситуация складывается таким образом, что сформированы два практически непримиримых лагеря: сторонников понятия "псевдорепликация" и его критиков. При всем этом вряд ли можно отрицать роль Статьи как профилактической прививки против "детской болезни" некорректного применения статистических методов. Теперь исследователи, проводившие маловразумительный эксперимент либо некачественно его обработавшие, с известной осторожностью будут подходить к оформлению своих публикаций и представлению результатов, что, несомненно, принесет большую пользу и научным журналам и самим ученым-экологам. Если бы получилось так, что Статья случайно не опубликовалась, ее надо было бы срочно написать.

А. Видеть себя правдоборцем, несущим свет истины погрязшим в невежестве коллегам – удивительно привлекательная роль. Помнится, в ту же самую пору, в начале 80-х мы с коллегой проанализировали несколько десятков статей по количественной токсикологии и послали в редакцию крупного медицинского журнала рукопись обзорной статьи “Скрытые и явные ошибки в статистическом анализе результатов токсико-гигиенического эксперимента”. Но "Хелбертов" из нас не получилось: после длительных разборок редакция отказала нам в публикации (“Хотя в рукописи правильно подмечаются отдельные недостатки, в целом статья дискредитирует самоотверженный труд советских врачей-гигиенистов и бросает тень…”). Но я, почему-то не жалею, что этот кропотливый труд пропал втуне и наша работа не увидела свет.

Б. Основные положения, приведенные в Статье, мне показались вполне резонными, а с математико-статистической точки зрения – безупречными. По крайней мере, их большая часть. Прежде всего, очень жаль, что до сих пор на русский язык не переведен базовый учебник Р. Сокала и Ф. Рольфа (Sokal, Rohlf, 1969, 1981, 1995) по биометрии. По крайней мере, у меня нет такой информации. Очень полезные книги Н.А. Плохинского, изданные в 70-х годах, стали библиографической редкостью. Поэтому не удивительно, что многие экологи просто не знают основ прикладной статистики, не представляют себе даже, что такое доверительный интервал и насколько ему можно доверять. Раздел биометрии "Планирование эксперимента" наиболее сложен в методическом плане, и, не очень хорошо зная его, можно допустить много ошибок. Проценты статистических "ляпов", приведенные в дискуссии, честно говоря, вполне реальны. Если подобный анализ провести на основании работ российских экологов, то доля работ с ошибками в планировании и анализе полученного материала вполне может достигать 80-90%.

А. И все-таки мне кажется, что обильное цитирование Статьи в зарубежных источниках определяется скорее не ее научно-методологической ценностью, либо грандиозностью полученных результатов, а чисто психологическими мотивами:

желанием примкнуть к развернутой критикующей компании и самому получить шанс уличать (Heffner et al., 1996; Козлов, 2003, 2006; Kozlov, 2007);

попыткой отрицать правомочность клейма "псевдорепликация" на своих работах, либо работах своих коллег (Татарников, 2005; Velickovic, 2007);

просто как предупредительный сигнал рецензенту "Хелберта читал, в своей работе учитывал и в этом направлении замечаний ко мне быть не должно".

Так завязывается 20-летняя дискуссия, которая лишь частично имеет вид научной. С этой точки зрения, устраненность российских экологов до 2003 г. от участия в полемике можно только уважать. В случаях, когда это необходимо, Статья изучается и пропагандируется (см., например, "Методическое пособие по обработке результатов" для студентов биологического факультета МГУ им. М.В. Ломоносова, 2004 г.)

С. Самое страшное в том, что в Cтатье совершенно не определены четко формализованные критерии оценки, когда имеют место мнимые повторности, и все зависит только от субъективного мнения некоторого лица, присвоившего себе право находить признаки “неправильного использования статистического анализа” (Oksanen, 2004). В этом смысле термин "псевдорепликация" становится сродни политическим штампам эпохи 1793 или 1937 гг., что очень удобно для наклеивания ярлыка на любую работу, не особенно разбираясь ни в ее сути, ни в мотивах выбора технологии данного исследования.

Б. Это явление действительно имело место. Но это уже следствие Статьи, а не ее изначальная цель…
Насколько сейчас актуален однофакторный эксперимент?

С. Прочитав статью, мне показалось, что время остановилось и я оказался рядом с Р. Фишером в 20-х годах на Ротамстедской агробиологической станции. За это время математическая статистика шагнула далеко вперед. В 1930-е годы А.К. Митропольским (1939) предложены алгоритмы расчета многофакторных регрессий, хотя подвижников, которые бы отважились на подобные расчеты с помощью арифмометра, долгое время не находилось. В начале 40-х годов А. Вальдом описывается последовательная процедура проверки гипотез, что позволило существенно сократить количество испытаний. В 1947 г. Н. Винером было сформулировано кибернетическое понятие "черного ящика", который сыграл в планировании эксперимента важную роль формализации объекта исследования. В 1951 г. Дж. Бокс и К. Уилсон формулируют и доводят до практических рекомендаций идею последовательного определения оптимальных условий проведения эксперимента с использованием коэффициентов степенных разложений методом наименьших квадратов, движения по градиенту и отыскания области экстремума функции отклика. В 1961 г. С. Адельманом была обобщена идея Д. Финни о дробных репликах, как эффективном средством борьбы с "проклятием размерности" в многофакторном эксперименте. В конце 60-х бурно развиваются самоорганизационные методы построения математических моделей, после чего сложность реального объекта и модели стали соизмеримыми. Одновременно разрабатываются специальные методы планирования эксперимента, учитывающие действие скрытых (латентных) или дрейфующих факторов, не регистрируемых в ходе эксперимента (Маркова, Лисенков, 1973). В 70-80-х годах анализ экспериментальных данных формулируется как задача распознавания образов с ее мощным математическим аппаратом; на арену выходят такие методы искусственного интеллекта, как нейросетевое моделирование, генетические и эволюционные алгоритмы, методы нечеткой логики Л. Заде, численный ресамплинг, мета-анализ. Никакого упоминания об этих революционных процессах в Статье нет, и автор ничего не говорит о современных методах планирования эксперимента и обработки экспериментальных данных.

Б. Однако Статья и не пытается охватить безбрежные области математической статистики и ограничивается проблемами планирования простого однофакторного эксперимента, что в прикладной статистике соответствует задаче однофакторного анализа...

С. Это направление охватывает около 5% всего объема курса биометрии, перспективное развитие которой связано прежде всего с моделированием макробиологических или многофакторных экосистемных процессов. Упомянутый мною проф. А.И. Орлов назвал в экономике процесс сведения всей статистики к однофакторному ANOVA или методу наименьших квадратов как "убогая эконометрика". К чему приводит пропаганда и внедрение "убогой статистики"? Студенты и специалисты остаются в неведении относительно подавляющей части статистических методов анализа экологических данных, лишаются возможности использовать соответствующие интеллектуальные инструменты структурного и системного анализа. Поскольку планирование "убогого эксперимента" посвящено весьма узкому направлению, то для придания ему наукообразия подробно рассматриваются такие различные оторванные от реальности схемы, как обсуждаемая в Статье вероятность a, не зависящая от размещения {pre-layout}.

Б. Хочу сразу отметить, что львиная доля той области знания, которую теперь принято обозначать математическим планированием эксперимента, относится к задачам более высокой сложности, чем однофакторный эксперимент. Между тем, именно этот класс задач по большей части решается в таких предметных областях, как биология и экология. И тем более удивительно, что многие экспериментаторы не представляют себе отчетливо, как правильно организовать наблюдения и как корректно обработать их результаты. Так что публикация Статьи была жизненно необходима для этих распространенных случаев.

А. Давайте поговорим о "многофакторном" подходе к планированию однофакторного эксперимента. Думаю, что однофакторного эксперимента в природе вообще не существует. Есть "отклик" (т.е. показатель, который измеряют). Он - всегда один (или, по крайней мере, лучше, чтобы он был один). Воздействие тоже может быть одно, но ему сопутствуют различные факторы условий проведения эксперимента, которые можно и нужно учесть в обработке. Действительно, не всегда в экологии все значимо влияющие факторы удается выделить и спланировать, но ведь теория и практика учета пространственного или временного дрейфа при построении рандомизированных планов с одним-двумя факторами в условиях неоднородности давно и тщательно проработана. Вместо того, чтобы изобретать весьма странные для математиков "a -вероятности, обусловленной размещением" или пытаться найти отличия рандомизации от "перемешивания", целесообразней было бы просто адаптировать для экологов на близких им примерах хотя бы главы из книжки Д. Монтгомери (1980) или перевести на английский язык фрагменты книг Ю.П. Адлера, В.В. Налимова и их соавторов.

С. В Статье на пяти журнальных страницах (роскошь для российских журналов немыслимая) описывается с разных точек зрения умозрительный эксперимент с гниющими в воде кленовыми листьями. Было бы гораздо больше пользы, если бы автор вместо этого затратил 1/2 страницы и подробно описал оптимальный план многофакторного эксперимента, где одновременно изучается влияние всех возможных воздействий: а) глубины погружения листьев z; б) пространственной неоднородности водных масс xy; в) температуры воды t; г) сезонной динамики (месяца отбора проб); д) местности, где были собраны листья; е) способа их предварительной подготовки; ж) фактуры ткани, из которых сделаны мешочки; з) квалификации лаборантов, осуществляющих расфасовку и т.д. И точки размещения мешочков с листьями будут являться составной частью этого оптимального плана. Но было бы еще полезнее, если бы автор не мудрил с кленовыми листьями, гниющими где-то в канадских озерах, а подробно привел в качестве примера реальный интересный экологический эксперимент, варианты его хорошей и плохой реализации, сравнил бы альтернативные результаты и на этом построил бы свою аргументацию.

А. Действительно, исследователь, поставивший однофакторный эксперимент, неизбежно сталкивается с проблемой, озвученной в дискуссии, но далеко не новой в историческом плане: насколько полученные результаты можно распространить на иные объекты, находящиеся в иных условиях среды. И тут единственный путь – планирование и реализация многофакторного эксперимента: сканирование признакового пространства, отбор информативно значимых факторов, определяющих суть изучаемого процесса.

Б. Однофакторный эксперимент оправдан в случае специальных экотоксикологических испытаний, где выясняется порог вредного действия конкретного ксенобиотика, и в некоторых других подобных случаях.

С. Но и там необходим анализ видовой чувствительности, сезонного фактора и проч. Дж. Милль (Mill, 1843) в своем пятом правиле экспериментальных исследований писал “Если какое-то одно явление изменяется неким образом всякий раз, когда меняется другое явление, то первое является либо причиной, либо следствием второго, либо связано с ним некоторой опосредованной причинной зависимостью” (цит. по Кендалл, Стьюарт, 1976, с. 176). То есть без одновременного варьирования значений нескольких факторов нет надежды определить связи и взаимодействия между переменными, что может привести к неправильным выводам.

Б. По сути, речь идет о том же, что и у С. Хелберта, то есть – о необходимости учета всего комплекса факторов?

С. Да, но только более строгими формализованными методами, отработанными десятилетиями, а не спонтанными "перемешиваниями" и "повторами".

А. Большинство экологических проблем связано с сообществами и экосистемами, которые многофакторны в принципе. Их решение требует постановки крупномасштабных, многофакторных, тесно скоординированных исследований, где и повторяемость и рандомизация – не частные свойства какого-то одного конкретного опыта, а составляющие некоторого общего плана. Об этом и пишет Л. Оксанен (Oksanen, 2001, 2004), а с ним вынужден согласиться и сам С. Хелберт (2004).
Экспермент и "экспериментальные единицы"

Б. В Статье сделано методически глубокое обобщение принципиальных схем различных экспериментов, выявлены для каждого типа характерные для них существенные составляющие. Автор вполне обосновано, концентрировано и последовательно проанализировал возможные источники ошибок, когда неверно выполняется планирование пространственного распределения воздействий и последующая обработка результатов наблюдений.

С. Но вряд ли можно считать элементом новизны многословный анализ в статьях С.Хелберта (1984, 2004) термина "эксперимент" с малоубедительными примерами с все теми же гниющими кленовыми листьями. Например, В.В. Налимов и Т.И. Голикова (1981, с. 10-12) привели большой список определений этого понятия и вполне убедительно показали тщетность любых попыток сделать компактную трактовку и классификацию всего множества проявлений экспериментальной работы.

Б. В Статье постоянно подчеркивается, что все ее основные положения относятся исключительно к управляемому эксперименту как “реализации процедурного плана, позволяющего определить эффект воздействия одной или нескольких переменных, которые управляются экспериментатором, на один или более показателей некоторых специфических элементов системы” (Hurlbert, 2004). Предположим, исследователь изучает зависимость популяционных показателей макрозообентоса от степени минерализации небольших рек. То есть налицо "управляемая переменная" и "показатели специфических элементов", но следует уточнить только понятие "управляемость". Безусловно, экспериментатор не будет засыпать в реки тонны поваренной соли, создавая воздействие. Он просто подберет несколько рек с разным уровнем природной засоленности "при прочих равных условиях" и проведет отбор гидробиологических проб. Но будет ли здесь имеет место эксперимент или это - просто описательное исследование?

А. “Есть такой эксперимент!...” И его выполняет все человечество, а испытательным стендом является вся биосфера. Или какая-то часть человечества экспериментирует с какой-то частью биосферы. Надо ли отрицать наличие управляющих воздействий в виде Чапаевского завода по утилизации отравляющих веществ? И его сточная вода отличается по своей сути от бифенилов, заливаемых в аквариум, разве что только масштабами. И если эксперимент в твоем примере с засоленностью не считается управляемым, то Статья адресуется только агротехникам и читать ее широким слоям экологов нет никакой необходимости.

Б. Биологические объекты по самой своей сути обладают большой изменчивостью. Особенностью же проведения полевых экспериментов можно считать наличие большого количества неконтролируемых факторов. Оценка степени влияния изучаемого воздействия может оказаться ошибочной, если оно должным образом не локализовано, т.е. не выделено в "чистом виде". Основная идея Статьи – анализ источников стохастических неоднородностей и устранение возможных последствий несверхъестественных влияний путем составления хорошего плана эксперимента с использованием следующих техник:

наличие контрольных повторностей;

наличие более чем одной повторности для каждой комбинации изучаемых факторов {replication};

независимость повторностей;

случайное соотнесение {randomization} каждой из комбинаций изучаемых факторов с определенной экспериментальной единицей;

"перемешивание" изучаемых воздействий {interspersion}.

А. Несомненным позитивным моментом обсуждаемой дискуссии следует признать тезис, последовательно подчеркиваемый в Статье и не попавший до сих пор акцентировано в поле зрения отечественных экологов, о необходимости всегда четко в эксперименте и в последующей статистической обработке отражать уровни, на которых взяты анализируемые повторности. Речь идет об уточнении понятия экспериментальной единицы {experimental unit} – “наименьшего объекта, испытывающего изучаемое воздействие независимо от остальных подобных объектов” (Козлов, Хелберт, 2006).

С. Что значит наименьший" и причем тут пространственные габариты? Например, если изучается индивидуальная реакция живого организма на изучаемый токсикант, то наименьшим объектом, испытывающим воздействие, является особь, поскольку каждая из них реагирует на ксенобиотик специфично и функционально независимо. Если анализируется влияние фактора на интегральные популяционные характеристики (например, биоразнообразие или способность к размножению), тогда, бесспорно, в качестве выборочных единиц выступают аквариумы или иные подмножества особей одной популяции. Можно привести примеры, когда элементами выборок могут являться моря и крупные водоемы. Но “аквариум, обладающий антиоксидантной системой, на которую воздействуют бифенилы”, – это все же откровенная чепуха.

Б. Вопрос целиком и полностью в том, какая доля дисперсии липидных показателей определяется индивидуальной изменчивостью организмов s_o, а какая – условиями среды обитания организмов s_sпри отсутствии воздействия. Если s_s >> s_o, то фактически экспериментальной единицей является аквариум, и опыт некорректен. Но оценить составляющую дисперсии s_s можно только при наличии контрольных повторностей.

А. На мой взгляд, неоднозначность в трактовке экспериментальной единицы сводится к различию в стереотипе двух образов мышления. Первый стереотип (назовем его условно "токсикологический", поскольку его классическим проявлением является токсикология) ставит во краю угла эксперимента "особь". И это совершенно справедливо, когда рассматривается эффект воздействия в виде сдвигов показателей на организменном уровне, т.е. изучаются биохимические реакции (снижение гемоглобина в крови), морфологические или физиологические изменения (нарушение сердцебиения, увеличение массы печени), поведенческие реакции и проч. Оценку эффекта воздействия следует проводить по стандартизованной разности показателя между опытными и контрольными группами (т.е. разности между групповыми средними, отнесенной к выборочной дисперсии), причем эти статистики рассчитываются по всем экземплярам, взятым в эксперимент. Особь в этом случае является "экспериментальной единицей", поскольку проверяется гипотеза о воздействии фактора на конкретный организм, а подмножества особей составляют сравниваемые между собой выборки.

Второй стереотип (назовем его для удобства "биотопический") оперирует с целостными фрагментами биосферы, т.е. некоторыми участками территории вместе с населяющими ее биотическими компонентами, находящимися в активной взаимосвязи с факторами окружающей среды. И после чтения Статьи становится очевидным (тут нельзя не снять шляпу перед С. Хелбертом), что в этом случае должны быть особые, специфические правила "статистической игры", поскольку проверяется гипотеза о воздействии фактора не на какой-то конкретный организм, а на весь рассматриваемый "кирпичик" экосистемы как единого целого. Степени свободы и вариация таких экспериментальных единиц уже не связываются с количеством веток, поломанных лосями, или с дисперсией частоты сердцебиения некоторого числа мышей, а с некоторыми интегральными показателями биоценоза. Но и смысл оцениваемых показателей также должен быть оформлен соответствующим образом: изменение общей численности, индексов биоразнообразия, соотношение обилия видов, т.е. иметь отчетливую адресность на некоторый уровень группировки особей.

Между представителями "токсикологической" и "биотопической" ориентации есть определенное недопонимание, которое выражается в том, что каждый считает правильным обрабатывать данные только по своим статистическим процедурам. Первые акцентируют внимание на независимой и индивидуальной реакции особей (экземпляров растений), считая только их компонентами сравниваемых выборок. Вторые, наоборот, подсчет показателей на уровне особи считают “повторным измерением одной и той же экспериментальной единицы”. Компромисс видится в том, что нужно в каждом случае точно устанавливать адресность, механизм и смысл воздействия, т.е. на что конкретно оно направлено: на отдельную особь, группу особей, сообщество или целый крупный регион. И тогда не будет "аквариумов, обладающих антиоксидантной системой".

Однако структурная сложность реальных экосистем не дает возможность однозначно оценить уровень, на котором следует локализовать понятие "экспериментальная единица". Пусть, например, нам необходимо сравнить популяционную плотность некоторого биологического вида в условиях воздействия и без него. Разумеется, наименьшей единицей, на которую оказывается воздействие, является подмножество особей данного вида, а оцениваемым показателем - их численность или биомасса по результатам точечного измерения, т.е. пробы, взятой в каких-то пространственно-временных координатах. Совокупность проб, взятых в пределах одного местообитания, образует выборку из повторностей измерения, характеризующейся оценками среднего и дисперсии. Подмножество местообитаний может составлять некоторый участок (часть реки, поля, леса), и тут, как будет показано ниже, совсем не однозначна процедура оценки статистик популяционной плотности (выборочной дисперсии и количества степеней свободы) для всего участка. Процесс агрегирования результатов измерений можно продолжить далее, объединив участки в регионы (целостные реки, поля, леса) и т.д. И смысл задачи мне видится совсем не в том, чтобы (в сомнениях и взаимных обвинениях) разбираться, на каком уровне надо обобщать данные, т.е. что считать за "экспериментальную единицу" (или повторность опыта в терминах теории погрешностей) - отдельную пробу, каждое местообитание, участок или более крупный регион. Нужно просто выполнить многофакторный дисперсионный анализ общей изменчивости популяционной плотности, в ходе которого оценить значимость и долю вариации, создаваемой неоднородностями факторов на каждом иерархическом уровне: а) влияние условий взятия проб; б) неоднородность отдельных местообитаний или участков; в) изменчивость, определяемая эффектом воздействия.

С. Мучиться сомнениями о природе "экспериментальных единиц" определенно не стоит. В системном анализе подобные задачи подлежат декомпозиции на более простые и решаемые; а затем осуществляется композиция решений. Например, для решения подобной задачи (Цейтлин, 2007) в качестве экспериментальной единицы была принята отдельная особь (в нашем случае, корова). Данные обрабатывались методом регрессионного анализа и получали эмпирические модели, характеризующие молочную продуктивность отдельной коровы. Затем осуществлялась композиция этих моделей в стада, колхозы, фермерские хозяйства, районы, зоны и т.п.

В общем случае речь идет о моделях косвенных измерений, в которых искомое значение величины отклика Y находят по результатам прямых измерений на основании известной функциональной зависимости: Y = f (θ, x), где f(θ, x) - известная (обычно – гладкая) функция; θ Î R^m - вектор известных значений коэффициентов; x Î Q Ì Rⁿ - вектор прямых измерений факторов - многомерная случайная величина, определенная на области действия Q.

А. "Экспериментальная единица" – это не более чем уровень группировки объектов наблюдения, который по каким-то априорным предположениям исследователя определяет наибольший вклад в вариацию измеряемого показателя. Задаваться этим уровнем изначально – значит обрекать себя на догматизм в обработке результатов, поскольку такой выбор в условиях неопределенности многовариантен. А если нет "экспериментальной единицы", значит, в принципе, нет и повторности (ни мнимой, ни истинной, ни девальвированной). Есть только таблица наблюдений, в каждой строке которой представлено значение измеренного показателя и еще целый ряд столбцов, определяющих условия измерения, независимые факторы воздействия и показатели, которые используются для группировки. Далее, комбинируя эти переменные, находим иерархию групп, проверяем их внутреннюю однородность и внешнюю неоднородность и выполняем серию статистической обработки, чтобы оценить разложение общей вариации по уровням иерархии объектов.
Старая и новая терминология

Б. В Статье подробно разобраны различные этапы постановки полевого однофакторного эксперимента, и пристальное внимание уделяется двум проблемам – существованию огромного количества неконтролируемых в полевых условиях факторов, оказывающих влияние на исход эксперимента, а также возможности осуществления в ходе эксперимента случайных непредсказуемых событий. При этом строгое выявление причинно-следственной связи между воздействием и откликом базируется на трех китах: репликации, рандомизации и контроле.

А. Невозможно подвергнуть сомнению ни справедливость этих положений, ни заслуг С.Хелберта, который обобщил принципиальные схемы различных экспериментов и выявил для каждого типа характерную для него составляющую. Но основные правила "хорошего эксперимента" были сформулированы задолго до появления этих терминов:
а) в ходе опыта исследователь должен выполнить эксперимент с несколькими группами экспериментальных единиц (выражаясь языком классической статистики - получить несколько выборок наблюдений случайной величины);
б) план эксперимента должен гарантировать, что одна часть этих выборок была получена в условиях воздействия изучаемого фактора, а для другой части выборок это воздействие было полностью исключено;
в) множество посторонних факторов (стохастических или связанных с рандомизацией эксперимента) должно оказывать влияние на все выборки в равной мере.

Таковы давние логические правила локализации воздействий. Суть этих приемов была известна еще на заре цивилизации как античная максима “…при прочих равных условиях”.

Б. Действительно, необходимость повторности и рандомизации в эксперименте подробно акцентируется практически в каждой книге по статистике или планированию эксперимента. Вот некоторые цитаты из них:

“Все варианты опыта должны быть, по меньшей мере, дублированы для того, чтобы расхождения повторных результатов могли бы быть своего рода стандарта, с которым можно было бы сравнить наблюдаемые различия между вариантами. Вообще же лучше иметь более высокую повторность опыта… Следует избегать систематического расположения вариантов опыта… При случайном расположении вариантов без каких-либо ограничений ошибка опыта, хотя и может быть правильно определена, но все же обычно бывает слишком высокой. В хорошо спланированном опыте на случайное размещение делянок обычно наложено некоторое ограничение, причем так, что все еще остается возможность правильной оценки точности опыта и в то же время исключается большая часть неоднородности участка” (Фишер, 1958, с. 209-215).

“Принцип рандомизации формулируется очень просто: Если при проведении эксперимента проводится размещение экспериментальных объектов по комбинациям факторов, то это должно делаться случайным образом с использованием равных вероятностей. Таким образом, каждая комбинация факторов будет иметь одинаковый шанс быть примененной к каждому экспериментальному объекту, к которому она может быть применена” (Кендалл, Стьюарт, 1976, с. 177).

“В основе планирования эксперимента лежат два основных принципа – репликация и рандомизация. Под репликацией мы понимаем повторение основного эксперимента… Повторные опыты обладают двумя важными свойствами. Во-первых, они позволяют экспериментатору получить оценку ошибки эксперимента (случайной погрешности). Эта оценка становится основной "мерой" при определении того, являются ли наблюденные различия в данных в действительности статистически различными. Во-вторых, если выборочное среднее (например, у) используется для оценивания эффекта фактора в эксперименте, то повторные наблюдения позволяют исследователю получить более точную оценку этого эффекта… Рандомизация – краеугольный камень, на котором основано применение статистических методов в планировании эксперимента. Рандомизация означает, что распределение экспериментального материала и порядок, в котором должны проводиться отдельные опыты или прогоны эксперимента, устанавливаются случайным образом. Для применения статистических методов требуется, чтобы наблюдения (или ошибки) были независимыми случайными переменными. Рандомизация, как правило, обеспечивает справедливость этого допущения. При соответствующей рандомизации эксперимента мы также "усредняем" возможные эффекты внешних факторов” (Монтгомери, 1980, с. 7-8).

“Повторные опыты нельзя путать с повторными измерениями в одном опыте. Такие измерения часто делаются и являются полезными, но не могут заменить повторных опытов… Термин "рандомизация" происходит от английского слова random - случайный… Для того чтобы компенсировать влияние систематических ошибок, опыты нужно рандомизировать в пространстве и во времени” (Адлер и др., 1976, с. 126, 133).

“В ходе эксперимента приходится иметь дело с такой ситуацией, когда на случайную последовательность накладывается некоторая несущественная с точки зрения исследователя упорядоченность. Эту несущественную упорядоченность всегда можно устранить при помощи искусственного приема – рандомизации. Простейший пример рандомизации – это хорошо продуманная система отбора проб для анализа” (Налимов, 1960, с. 28).

А. Ну а такой термин, как "перемешивание" {interspersion}? Это что – некоторый компромисс между систематическим и случайным вариантами размещения экспериментальных единиц, основанный на субъективных ощущениях экспериментатора? Но почему бы тогда не поручить эту проблему компьютеру, задав предварительно критерии "оптимального" размещения (например, в виде максимума суммы квадратов расстояний между единицами, подвергающимися воздействию одного уровня). Вероятнее всего, тогда любое случайное размещение неизбежно сведется к регулярному типа "шахматной доски". Впрочем, этими проблемами занимается очень серьезная наука о статистическом анализе пространственных структур, оперирующая хорошо проработанными моделями однородности (см., например, обзор П.Я. Грабарника и А.С. Комарова, 1980).

Б. Применительно к полевому эксперименту рандомизация осуществляется путем случайного выбора локаций, в которых применяется воздействие (либо не применяется, если точка попала в контрольную выборку). Результатом такой процедуры в конечном итоге оказывается случайное перемешивание экспериментальных объектов с разными уровнями воздействия. Таким образом, перемешивание – это практическая реализация рандомизации в полевых условиях.

С. Я с интересом проследил в Статье за аспектами исторического противостояния грандов мировой статистики В. Госсета – "Стьюдента", защищавшего использование систематических блоков, и Р. Фишера, являвшегося непримиримым сторонником абсолютной рандомизации. Однако, как следует из вышеприведенной цитаты, Р. Фишер (1958) хорошо понимал необходимость ограничений на случайное размещение вариантов. Думается, что С. Хелберт, обосновывая "перемешивание" (1984, с. 196-198), просто пересказал раздел 48 этой книги.

А. Давайте перейдем к квинтэссенции статьи – к вновь обозначенному автором понятию псевдорепликации.

С. Сам термин "мнимые повторности" мне представляется странным. Повторности – или есть, или их нет, и "мнимыми" они быть не могут! Другое дело – "повторность" чего? Это может быть (i) повторность измерения и (ii) повторность значения случайной величины при ее воспроизведении в новых опытах при одинаковых значениях управляемых факторов и при рандомизации относительно неуправляемых факторов. Об этом подробно написано в подразделе "Оценка погрешности измерений" разд. 3.1 настоящего сборника. Например, измеряем концентрацию нитратов в воде водоема. Взяли 1 пробу и сделали 5 повторных анализов на основе этой пробы. Это – 4-кратная повторность измерения концентрации нитратов в воде и нужна для оценки погрешности. Если ставится задача установить пространственное распределение нитратов по толще воды, то берут 101 пробу в случайных точках и делают 101´ 5 = 505 анализов. Это – 100-кратная повторность значения случайной величины концентрации нитратов в воде водоема. Важно не просто сообщить читателю о наличии тех или иных повторностей, а правильно выполнить оценку и разложение на составляющие дисперсии измерений.

А. Определение термина "мнимая повторность", если вдуматься, весьма оригинально: “Псевдорепликацией называется использование статистического анализа…”. То есть, навязчиво создается впечатление, что смысл "мнимых повторностей" – не в свойствах плохо или хорошо спланированного эксперимента, а в факте последующего применения статистических критериев. Как будто эксперимент, проведенный без повторностей, перестал быть таковым, если кто-нибудь так и не отважился на расчет t- критерия. Вот другое аналогичное определение по мотивам известной поговорки: "Гнедой лошадью называется проезд телеги по деревне, если запряженная лошадь гнедая или выкрашена под гнедую". Как будто лошадью называется процесс ее использования! Как будто гнедая лошадь не является таковой до тех пор, пока ее масть не продемонстрирована всей деревне!

Б. Во-первых, предложенный М.В. Козловым вариант перевода "мнимые повторности" следует семантической форме оригинала, но не тождествен его сущности, в результате чего возникают многочисленные трудности интерпретации. Во-вторых, псевдорепликация (прямая транслитерация кажется более уместной) возникает именно на этапе интерпретации результатов анализа. Проблема необходимости рандомизации при проведении опыта чаще всего не осознается, но, выполнив формально абсолютно правильно статистический анализ, исследователь вряд ли сможет воздержаться от формулировки неадекватных проведенному исследованию заключений, и будет ошибочно настаивать на статистически достоверном выявлении эффекта воздействия. Так что “pseudoreplication – это получение и последующая статистическая обработка результатов эксперимента при отсутствии повторностей как таковых, либо если эти повторности не являются статистически независимыми”.

А. Так, безусловно, лучше. По определению, если в эксперименте сформировано только две выборки: одна – из контрольных объектов, другая – из подопытных, то такой эксперимент некорректен, поскольку велика вероятность влияния неконтролируемого фактора, либо какого-либо несверхъестественного события. Обращаясь к одному из примеров дискуссии, “любые две рыбы из одного аквариума могли находиться в более сходных условиях, чем любые две рыбы из разных аквариумов” (при отсутствии воздействия, разумеется). И здесь других мнений быть не может. Использование повторностей опыта жизненно необходимо, и в той же самой токсикологии ставят серию аквариумов с разным уровнем воздействия (100% от эффективной дозы, 75%, 50%, 25% и с нулем для контроля), чтобы можно было построить кривую "воздействие–эффект". Но в отказе от повторностей у экспериментатора могут быть причины финансового и гносеологического характера. На них подробно остановился Л. Оксанен (2001, 2004).

С. Верно: жизненная необходимость в повторностях на практике обнаруживается не сразу. Наука начинается со сбора отдельных фактов. Это – этап "предпланирования" экспериментов. Каждый факт может быть даже уникальным (одно дерево – до и после воздействия). Главное, что получение таких фактов обходится недорого. А вот для поиска закономерностей надо планировать более дорогое и масштабное многофакторное исследование по всем канонам теории эксперимента, в том числе и с повторностями.

Б. В стратегии финансирования желательна установка на реализацию полноценного многофакторного эксперимента. Тогда, например, всего один эксперимент с повторными опытами можно провести в центре ортогонального факторного плана.

А. Не надо только доводить ситуацию до абсурда. В естествознании принципиально невозможна постановка "идеального опыта", не несущего погрешности эксперимента. При любом, самом оптимальном плане в реальных условиях трудно получить стерильные выборки случайных величин, напрямую связанные с уровнями воздействия факторов, изолированные от влияния посторонних эффектов и имеющие функцию распределения, согласующуюся с закономерностями генеральной совокупности. Как нельзя дважды войти в одну реку, так и нельзя обеспечить абсолютную идентичность физико-химических условий в двух аквариумах, одинаковую биохимическую или поведенческую реакцию двух групп или отдельных особей скорпены. Иными словами, можно категорически утверждать, что не в 27%, как считает С. Хелберт, а во всех 100% случаев использовавшиеся выборки либо их повторности в реальном экологическом эксперименте не были полностью статистически независимы.

Б. Вот именно поэтому и необходимы повторности воздействия, которые позволяют статистически корректно оценить "погрешности эксперимента", то есть оценить внутригрупповую изменчивость и на основании этой изменчивости статистически корректно выявить эффект воздействия.

А. Суть вопроса в том, носят ли возможные отклонения от исходных предпосылок о независимости выборок статистически значимый характер. Иными словами, исследователь должен априори оценить, насколько велик на практике риск получить некорректные результаты вследствие несверхъестественного воздействия. Здесь используется так называемый принцип практической уверенности: если вероятность события А в данном испытании очень мала, то при однократном выполнении испытания можно быть уверенным в том, что событие А не произойдет, и проводить эксперимент так, как будто событие А вообще невозможно. Л. Оксанен (2001) убедительно показывает, что если вероятность p_l того, что наблюдаемые расхождения обусловлены совокупностью локальных факторов, кроме самого воздействия, близка к нулю, то эффект воздействия корректно определяется из эксперимента. Например, если два стационарных аквариума многократно откалиброваны на идентичность условий в режиме контроля, лампочки не тухнут, формалин не расплескивается, особи скорпены для обоих аквариумов подбираются в соответствии с требованиями рандомизации и соблюдаются остальные разумные требования независимости испытаний, то вероятность p_l исчезающе мала. В противном случае, исследователь повторяет опыт.

Б. А еще лучше ничего не анализировать или предполагать, а просто поставить опыт с повторностями. Например, исследователь может не заметить, что в одном аквариуме случилась эпидемия грибкового заболевания…

А. В общем случае с этим можно согласиться. Но рассмотрим другой фрагмент определения "псевдорепликации", когда повторности есть, но они не являются статистически независимыми {replicates are not statistically independent}.
Статистическая независимость повторностей

С. А что такое "статистически независимые"? Случайные величины X_i(w ), i = 1, 2, …, n, называются независимыми, если их совместное распределение вероятностей сводится к произведению частных распределений: P(x₁, x₂, …, x_n) = p (x₁)p(x₂) … p(x_n). Однако, как пишет В. Шендерович, “у простейших – свои сложности”. Обычно строго независимых результатов измерений нет и на практике это соотношение формулируется в виде нулевой гипотезы об отсутствии корреляции между результатами измерений против альтернативной гипотезы о ее наличии. Однако получить состоятельные статистические оценки параметров распределения случайных величин весьма затруднительно, а отклонить гипотезу о малой корреляции при ограниченном количестве данных вообще невозможно. Достаточно подробно эту проблему изучал П.Е. Эльясберг (1983).

А. В этом случае жаргонный термин "псевдорепликация" в Статье соответствует ситуации, когда некоторый "эксперт" вдруг предполагает, что группы объектов, используемых в эксперименте, недостаточно "перемешаны" по отношению ко всей совокупности локальных факторов, включая само воздействие. Подробно рассматривается рандомизация в пространстве, но подразумевается, что все “воздействия и их рецепиенты должны быть хаотично вкраплены вдоль осей всех потенциально существующих экологических градиентов” (Oksanen, 2004).

А. Как выделить и ранжировать по степени важности эти градиенты? Как количественно оценить степень возможной и достигнутой рандомизации? Какова вообще процедура принятия или отклонения гипотезы о статистической независимости по Хелберту полученных выборок экспериментальных наблюдений?

Б. Если речь идет о рандомизации в пространстве, то предлагается сопоставлять не зависящую от размещения {pre-layout} и обусловленную размещением {layout-specific} вероятности a.

С. По-моему, это просто неуклюжая тень на статистический плетень. Автор Статьи предлагает провести серию одних и тех же экспериментов при различных вариантах размещения экспериментальных единиц в пространстве и получить отдельные уровни значимости для каждой проверяемой гипотезы об отсутствии эффекта. Общее заключение о наличии эффекта воздействия делается на основе среднего арифметического из полученных значений уровней значимости. Хотелось бы увидеть конкретные результаты подобного анализа для какого-нибудь реально проведенного эксперимента. А пока этого нет, то надо заметить, что усреднение уровней значимости некорректно по существу. Следует пользоваться другой формулой. Если имеется независимых нулевых гипотез , то вероятность их одновременного принятия равна . Отсюда вероятность отклонить хотя бы одну из гипотез , если все они верны, равна . Об этом мы пишем в разд. 3.1.

А. А мне интересно посмотреть, как экспериментатор сможет провести серию опытов с разным размещением участков на одном и том же поле, в одно и то же время, с одним и тем же картофелем и навозом (см. эпизод Статьи Первородный грех в Ротамстеде). Правда имитационную модель этого процесса несложно сделать на компьютере.

С. И другой вопрос автору – как получен график зависимости между уровнем значимости (a ) и числом повторностей (n) для двух планов эксперимента (рис. 4)? Если это – теоретический расчет, то должны были бы быть приведены расчетные формулы, если – эмпирический результат, то точки принципиально не могут лежать на гладких кривых.

Б. А нигде и не отрицается, что это все чисто гипотетические построения, т.е "мысленный эксперимент". Более того, это всегда подчеркивается…

С. Как трактует толковый словарь, спекулятивная форма познания (от лат. speculor - созерцаю) - тип теоретического умозаключения, которое выводится без обращения к опыту, при помощи рефлексии. Но не было бы возражений, если бы, вместо сомнительных гипотетических построений были обработаны реальные данные или даже выполнен имитационный вычислительный эксперимент. Но обязательно подробно описана его суть.

Б. Хотя и отсутствуют какие-нибудь формальные признаки псевдорепликации при наличии повторностей, но специалист всегда может оценить опасность нерандомизированных воздействий, экспертно изучая схему постановки эксперимента. Или воспользоваться рис. 1 Статьи.

С. Здесь все основано на чисто субъективных представлениях. В примере 10 (Козлов, 2003) использовались четыре группы самок серебристо-черных лисиц. Три группы подвергались действию различных режимов искусственного освещения, а четвертая содержалась при естественном освещении. Повторности налицо, но требования "эксперта" неумолимы. Во-первых, самки могли по-разному пахнуть, поэтому группы нельзя считать независимыми друг от друга. Во-вторых, группа с естественным освещением не находилась в том же помещении, что и остальные три, следовательно, это эксперимент не имеет контроля (а попробуйте сами создать естественное освещение в закрытом помещении). И вывод, как последний удар молотка: установленные различия между группами нельзя статистически связать с различиями в режимах освещения. Пользуясь такой "методикой", можно в 99% экспериментах обнаружить мнимую повторность.

А. Экспериментатор, по сути, загоняется в угол. Например, в ротамстедском опыте поле перед посадкой картофеля делится пополам, на одной половине вносится навоз, после чего сравнивается урожайность на унавоженной и не удобренной половинах. Исследователь исходя из реалии ситуации и на основании своего опыта может быть сколь угодно уверен о том, что поле однородно и способ группировки лунок не имеет принципиального значения. Но у "эксперта по псевдорепликации" есть явный повод уличить экспериментатора: а вдруг половинки поля чем-то отличаются (лесополосой по краю удобренной половины, различиями в уклоне, прошлой историей делянок). Однако если удобренные лунки экспериментатор располагает по всему полю случайно, то при желании у "эксперта" нашлись бы иные факторы, влияющие на независимость экспериментальных данных: а был ли случайным путь кобылы, развозившей навоз по полю; а не падал ли навоз сквозь щели подводы; а как быть с тем навозом, который извергался самой кобылой; и, наконец, не имела ли место диффузия навоза от удобренных лунок к находящимся рядом не удобренным (эту идею с успехом претворяет М. Козлов в эпизоде с лисицами). Куда не кинь - всюду клин, вернее, мнимая повторность.

С. Общая вариация урожайности картофеля складывается из изменчивости отдельных кустов клубней, вариации продуктивности разных сортов, неоднородности плодородия почвы в радиусе 2-5 м (низкочастотные колебания), влияния внесенного навоза и, наконец (возможно), некоторого стационарного градиента плодородия почвы от одной половины поля к другой. Если последняя составляющая варьирования значима, то надо сделать повтор. Если установлено (например, прошлогодним экспериментом), что эта составляющая ошибки ничтожно мала, то – не надо. Искусство экспериментатора – оценить главные источники неподконтрольного влияния и нейтрализовать их. Например, если вы в лунки картофеля будете вносить навоз "через одну", или по какой-то иной случайной или систематической схеме, то после первого сильного дождя из-за диффузии или ручейковых потоков, навоз равномерно распределится по полю и результаты эксперимента будут не то что искажены, а впрямую сфальцифицированы. По сравнению с делением поля на две половинки поля, где процесс такой диффузии исключен и результаты окажутся гораздо более надежными. И решение о плане эксперимента тут следует принимать исследователю, а не "эксперту по псевдорепликациям".
Статья и математическая статистика

А. Необходимо предварительно отметить, что, несмотря на повсеместные призывы осваивать статистические методы, Статья имеет достаточно косвенное отношение к математическому планированию эксперимента и прикладной статистике. Все изложенные в работе положения можно расценивать исключительно как методическое руководство по организации и проведению однофакторного опыта (как брать фитоценологические пробы, как формировать группы крыс для интоксикации и т.д.). Однако автора Статьи при обсуждении того, как получить доброкачественную таблицу наблюдений, постоянно тревожит вопрос, корректно ли будут применяться впоследствии к этой таблице методы проверки значимости эффекта воздействия.

С. Выполнив эксперимент и получив таблицу измерений, исследователь может (и имеет право), в зависимости от обстоятельств или своей квалификации, предпринять с одними и теми же данными вычислительные манипуляции различной степени "математической глубины", которые можно по уровню сложности ранжировать следующим образом:

а) вообще не делать никаких выводов относительно эффектов воздействия, либо сделать их на основе каких-то общих представлений, не обращая никакого внимания на данные;
б) сделать выводы на основе сводных диаграмм и полей рассеивания;
в) рассчитать и сравнить значения средних арифметических по группам;
г) рассчитать средние и сравнить их с учетом доверительных интервалов;
д) выполнить проверку статистических гипотез с использованием критериев значимости.

В Статье постоянно подчеркивается, что высшей степенью "криминалитета" является стремление исследователя дойти до последнего приведенного пункта (если, конечно, проведенный эксперимент в принципе позволяет это сделать). С этим мнением решительно нельзя согласиться. Если экспериментатор вообще не сделал никаких выводов, он напрасно провел исследование, израсходовал ресурсы, выделенные обществом, и заслуживает самого резкого осуждения. Выводы, сделанные на основе сугубо визуального впечатления от данных, являются отчетливой формой "информационного субъективизма". Расчет средних арифметических связан с наиболее распространенной формой ошибки статистической обработки. Нелишне напомнить, что среднее арифметическое является выборочной оценкой математического ожидания только для нормально распределенных совокупностей, что является крайней редкостью для биологических показателей. Необходимо либо провести поиск адекватного функционального преобразования данных, либо использовать иную форму среднего (среднее геометрическое, бивес-оценку, среднее по Колмогорову и т.д.) Если исследователь оценил ошибки средних или доверительные интервалы, то, по крайней мере, есть надежда, что он изучил гистограммы распределения, зафиксировал групповые сдвиги и заставил экспериментальные данные "работать" на изучаемую проблему.

Б. Если имеется неповторяемый эксперимент, а размер объекта позволяет проводить множественные измерения изучаемого параметра, то провести статистический анализ отличий между опытным и контрольным объектом можно и нужно. Главное – максимально четко сформулировать, что вывод об эффекте воздействия делается на основе не статистической, а какой-то другой аргументации. А использование критериев значимости (в оригинале inferential statistics) для прикрытия неудачно спланированных экспериментов – это уже повод для конкретного разбирательства.

А. Не стоит так драматизировать проверку статистических гипотез с использованием критериев значимости – это только один из многочисленных тестов, а не вердикт американского суда. Если исследователь включает этот анализ в статью, то вносит новый информационный пункт для обсуждения своих утверждений, сомнений и раздумий. Об этом подробно писал Л. Оксанен (2001, 2004), и с ним нельзя не согласиться.

Здесь интереснее другое. Если исследователь прямо указывает в публикации, что он использовал статистический анализ только для доказательства различий в флуктуирующей асимметрии грызунов, например, между двумя районами Сербии (Velicˇkovicˇ, 2004), а дальнейший вывод, что это различие вызвано эффектом загрязнения, он делает только как эксперт в популяционной экологии, то в этой работе нет псевдорепликации. Но если на основе статистического анализа автором напрямую делается вывод о влиянии загрязнения без каких-либо оговорок, то такую работу публиковать уже нельзя. Казуистика какая-то…

С. В дискуссии постоянно используется такая "уличающая" фразеология: “Этот эксперимент позволяет установить только различия между двумя точками взятия проб, что не является доказательством эффекта воздействия”. Здесь делаются, как минимум, две грубые ошибки.

Во-первых, статистика никогда не была в состоянии оценить "значимость эффекта воздействия", а только проверяет нулевую гипотезу об однородности двух произвольных выборок. Любой содержательный смысл, который связывает исследователь с каждой из выборок, находится вне сферы компетенции прикладной статистики. Все попытки наделить каждую из сравниваемых выборок теми или иными привходящими свойствами (будь то место взятия проб, уровень внешнего фактора или что-то иное) полностью лежат на ответственности экспериментатора и зависят от его квалификации. И когда С. Хелберт пишет о процедурах выявления эффекта воздействия, он имеет в виду какие-то собственные субъективные конструкции, а никак не стандартные процедуры проверки статистических гипотез.

Во-вторых, статистика никогда и ни при каких условиях не может ничего доказать. Как писал Р. Фишер (1981), “основная гипотеза не может быть доказана в ходе эксперимента, ее, быть может, удастся лишь опровергнуть... Всякий эксперимент может быть назван таковым лишь постольку, поскольку он дает возможность опровергнуть основную гипотезу”. Иными словами, если нулевая гипотеза об отсутствии эффекта воздействия не отклоняется, ее принимают, но не считают доказанной, поскольку тем же данным могут отвечать иные гипотезы. Если наоборот, Н_о отвергается, это также не служит доказательством альтернативной гипотезы. О "надежности" (1 - b ) принятия альтернативной гипотезы Н₁ можно судить только, оценив функцию мощности статистических критериев (см. раздел 3.1).

А. Любопытно, что, обсуждая опасности статистической обработки, С. Хелберт не сделал даже краткого анализа, что он под этим понимает, и не дал на этот предмет никаких рекомендаций. В одном случае он упоминает параметрический дисперсионный анализ (ANOVA), в других – критерии Стьюдента, Манна-Уитни и зачем-то подробно останавливается на использовании критерия c ².

Б. А вот это как раз не имеет никакого значения. Много чего можно применить, суть от этого не изменится. Никто не запрещает вместо ANOVA использовать дисперсионный анализ Крускала-Уоллиса. Можно в принципе сравнивать параметры бета-распределения, если интересующий нас объект ему подчиняется…

А. Характер проверяемых гипотез сильно зависит от того, есть повторности или нет. Хотя при наличии двух выборок F-критерий совпадает с двусторонним t-критерием (Ван дер Варден, 1960), идеологически они различны. Одна из задач статистической обработки при отсутствии повторностей состоит в том, чтобы по результатам эксперимента (т.е. небольшим наборам из m и п действительных чисел, соответствующим различным элементарным событиям) проверить гипотезы об однородности порождаемых данных. Или в иной формулировке: требуется проверить, есть ли статистические различия между выборками.

С. Для проверки однородности двух независимых выборок можно предложить критерии Стьюдента, Крамера-Уэлча, Лорда, хи-квадрат, Вилкоксона (Манна-Уитни), Ван-дер-Вардена, Сэвиджа, Н.В. Смирнова, типа омега-квадрат (Лемана-Розенблатта), Реньи, Г.В. Мартынова и др. Каждый критерий имеет свою систему специфических ограничений и является оптимальным при соответствующей альтернативе и подходящем распределении выборок. Какой из них выбрать? Практичный подход заключается в выборе в первую очередь непараметрических критериев, пригодных "на все случаи жизни", т.е. для любых распределений. Однако параметрические критерии (если данные подчиняются нормальному закону распределения) – более мощные...

А. Мне бы хотелось еще раз подчеркнуть то обстоятельство, что использование критериев значимости и дисперсионного анализа – только одно из многочисленных средств оценки уровня воспроизводимости прогнозируемых событий или явлений в условиях эксперимента. Результаты их применения очень сильно зависят от постулированных предположений и допущений анализа (требование нормальности, одинаковой распределенности, репрезентативного выборочного усилия и проч.). Поскольку проверка закона распределения – сложная и трудоемкая статистическая процедура, приходится использовать t-статистику на основе нереалистического предположения о нормальности распределения результатов наблюдений, надеясь, что имеющиеся отклонения незначительно отразятся на качестве выводов.

С. На этот счет есть неоднозначные суждения. Практическое экспериментирование привело со временем к размыванию жесткости предпосылок и откровениям типа: “Нормальность превратилась не более чем в частный случай” (Дрейпер, Смит, 1986, с. 12); либо вовсе: “Нормальный закон, как закон ошибок неверен” (Тутубалин и др., 1999; с. 8). Было показано (Орлов, 2006), что при больших объемах выборок требование нормальности ослабевает (нужный эффект обеспечивается центральной предельной теоремой), а при близком объеме выборок не требуется так же и равенства дисперсий. Другими словами, если объемы двух выборок достаточно велики (не менее нескольких десятков) и равны, то проверка равенства математических ожиданий с помощью критерия Стьюдента дает правильные результаты, независимо от того, выполнены ли предпосылки нормальности и равенства дисперсий или нет.

А. Мой практический опыт свидетельствует как раз об обратном. Но давайте перейдем теперь к эксперименту с повторностями. Пусть для каждой "экспериментальной единицы" проведено некоторое количество r повторных измерений x₁, x₂,…,x_r. Пусть также мы имеем m реализаций опыта в условиях некоторого изучаемого воздействия и n повторностей в условиях контроля, т.е. всего получено k = (m + n) выборок случайной величины. Следует оценить, имеет ли место эффект воздействия; точнее, есть ли статистические различия между m выборками опыта и n выборками контроля. Однако тут мы сразу сталкиваемся с еще одной серьезной проблемой, описанной в разделе 3.1 настоящего сборника, – эффектом множественных сравнений. Оценка гипотез по критериям значимости при количестве групп при k > 2 должна осуществляться на основе специальных процедур корректировки уровней значимости, например, с учетом поправки Бонферрони (Клейнен, 1978), либо использоваться иерархический дисперсионный анализ. Таким образом, уйдя от одной "коварной твари" – псевдорепликации (Heffner et al., 1996), мы сталкиваемся с другим “злостным вредителем научных исследований – эффектом множественных сравнений” (Гланц, 1999). Вспоминается фраза С.Е. Леца: “Можно пробить лбом кирпичную стену, но что ты станешь делать в другой тюремной камере?”.

Так что же предлагается в случае повторности экспериментальных единиц? “На практике это означает, что значения, полученные при анализе нескольких выборок из одной повторности, следует усреднить: одной повторности должно соответствовать одно значение интересующей исследователя переменной… Другой способ анализа подобных данных – использование иерархических {nested} статистических моделей” (Козлов, 2003). Чтобы ход наших последующих рассуждений был понятен экологам, рассмотрим пример, представленный в Приложении, и касающийся проверки реальной научной гипотезы в конкретных условиях. В представленном примере имеется 224 измерения случайной величины (среднего индивидуального веса личинок комаров-звонцов), выполненных в шести разных водотоках (k = 6), а выборка по каждому объекту составляла от 26 до 44 измерений. При этом на три водотока оказывается сильное антропогенное воздействие (m = 3), а три остальных реки протекают в относительно чистой зоне (n = 3). Нам представляется четыре основных возможных варианта статистической обработки данных с повторностями.

Вариант 1, весьма часто применяемый экологами. Объединяем между собой группы опытных и контрольных выборок, рассчитываем средние и вариансы для опыта и контроля по объединенным данным и сравниваем их по t-критерию. По С. Хелберту – типичный случай "простой псевдорепликации". И действительно, здесь не учитывается неоднородность условий экспериментальных единиц: эффект "воздействия" смешивается с эффектом "группы". Можно предположить, что будут получены смещенные оценки a -вероятности.

Вариант 2 (по С. Хелберту – наиболее приемлемый и методически верный подход). Усредняем измерения в выборке по каждому водотоку и получаем m и n значений средних. Затем, используя только эти шесть усредненных значений, рассчитываем отдельно средние и вариансы для опыта и контроля соответственно, после чего сравниваем их по t-критерию. Однако, если смещение среднегрупповой оценки математического ожидания показателя, рассчитанная по трем арифметическим средним, относительно невелико, то истинная дисперсия индивидуальной массы хирономид для трех рек не имеет ничего общего со среднеквадратичным отклонением трех средних арифметических от среднегрупповой величины.

Напомним, что, как любая оценка статистического параметра, выборочная дисперсия рассчитывается по определенному правилу из выборочных данных (x₁, x₂,…, x_n):

.

Замена измеренных реализаций случайной величины на некие подвыборочные средние резко искажает результат. В этих условиях полученной a -вероятности при проверке нулевой гипотезы вряд ли можно доверять.

Вариант 3. Выполняем однофакторный дисперсионный анализ на полном наборе данных. Число степеней свободы определяется с учетом числа измерений в группах. По С. Хелберту, это – множественые измерения относительно каждой экспериментальной единицы и простая псевдорепликация.

Следует отметить, что, выполняя анализ по F-критерию, мы проверяем гипотезу об общей однородности всех (m + n) повторностей, а это – немного не та задача, которую мы себе поставили. Нам нужно выделить различия между двумя подмножествами выборок, исключив из рассмотрения вариацию выборок внутри повторностей опыта или контроля.

Если при анализе вариаций получены статистически значимые результаты о различии выборок, то можно выяснить, какие из нескольких групп попарно отличаются друг от друга. Для этого разработаны специальные методы апостериорного сравнения средних {post-hoc comparisons of means}, в результате чего проверяется нулевая гипотеза об отсутствии различий между групповыми выборками. Однако здесь очевидна проблема множественных сравнений: имея (m + n - 1)/2 значений a -вероятностей для всех возможных пар выборок, у нас отсутствует строгий математический подход "свертки" этой матрицы к одному значению a -вероятности в отношении эффекта воздействия.

Вариант 4. Используем алгоритм иерархического двухфакторного дисперсионного анализа (Кендалл, Стьюарт, 1976; Stewart-Oaten, 1995), основанный на общей линейной модели, которая для любого случайно взятого измерения записывается как

y = m + t + b (t ) + e ,

где m – математическое ожидание общего среднего; t – влияние наличия или отсутствия изучаемого воздействия; b (t ) – влияние изменчивости между повторностями (например, в результате пространственно-временной неоднородности) в группах с одинаковым уровнем воздействия; e – влияние случайных (не учтенных в эксперименте) факторов. Предполагается, что все факторы – t , b (t ) и e – независимы друг от друга, поэтому можно общую суммарную изменчивость разложить на три компоненты:

Var y = Var t + Var b (t )+ Var e .

Значимость средних квадратов, соответствующих этим компонентам, можно проверить по критерию Фишера.

Данная организация дисперсионного комплекса (вместо обычной проверки по t-критерию – вариант 1) позволяет вычленить изменчивость между выборками из общей изменчивости между группами опытов с воздействием и без него. Однако, по С. Хелберту, – это “причудливый подход, … который не является более мощным в обнаружении эффекта воздействия, но более восприимчив к ошибкам при вычислении и интерпретации результатов. ”

С. На основе всего вышеизложенного напрашивается следующий вывод. В практических условиях статистические выводы всегда характеризуются принципиальной неопределенностью, поскольку неясно, как нарушение исходных предпосылок и процедурных разночтений влияет на качество конечных результатов проверки значимости. Экспериментатору приходится переходить с “гладкой дороги нереальных предпосылок, произвольных критериев и абстрактных результатов …. на каменистый путь реальных проблем” (Налимов , 1971, с. 68).
С. Хелберт (2004) или последовательная сдача позиций

А. За истекшие 20 лет непримиримость воззрений С. Хелберта существенно смягчилась, что ясно прозвучало в его ответе Л. Оксанену (Hurlbert, 2004). Подытожим внесенные им коррективы.

С. Хелберт стал считать, что проверка статистических гипотез в контексте неповторяемых экспериментов сама по себе уже не является ошибкой. Ошибкой является "неверное употребление статистических критериев". Тут же он поясняет, что, в частности, имеет в виду неправильное использование терминологии (т.е. использование выражения "доказать" в контексте проверки нулевых гипотез). Таким образом, если статистический анализ оформлен фразеологически верно, то тут никакой ошибки нет. Знание читателем элементарной логики приведет его к любопытному заключению: "Если статистический анализ эксперимента без повторностей не является ошибкой, а мнимой повторностью называется эксперимент без повторностей (см. первую фразу резюме Статьи), то мнимая повторность уже не является ошибкой".

Постоянно расширяется список ситуаций, когда отсутствие повторности уже не является криминалом: например, если созданы идентичные условия для опыта и контроля или контроль откалиброван на широком наборе процедурных воздействий. К мнимым повторностям уже не относятся и управляемые эксперименты с обширными пространственными объектами, где трудно создать повторности, хотя каждый понимает "обширность" в соответствии с индивидуальными мерками масштаба. С. Хелберт, наконец, упомянул о ключевой для планирования эксперимента модели регрессии, в условиях использования которой каждый уровень воздействия не требует никаких повторностей.

Факторные эксперименты, где каждая комбинация воздействий применена только к единственной экспериментальной единице, также сейчас не считаются экспериментом без повторностей. С. Хелберт уже призывает измерять в эксперименте возможно большее количество различных переменных, хотя пока не решается определить, что с ними следует практически делать. Хочется верить, что к следующему юбилею выхода статьи появятся, наконец, рекомендации использовать многофакторные планы экстремальных экспериментов.
О соотношении статистической и нестатистической аргументации

Б. Идеальная схема планирования и реализации простого однофакторного эксперимента почти никогда не выполняется на практике в полном объеме. При проведении полевого эксперимента исследователь намеревается зафиксировать некую общую закономерность, не ограничивая ее действие той местностью, в которой реально проводился эксперимент. Однако распространение выводов на все экосистемы аналогичного типа имеет под собой совершенно не статистическое обоснование. Скорее – это конвенциональный здравый смысл, принимаемый сообществами исследователей той или иной области.

Сходным образом, в разных предметных областях своя конвенциональная логика существует и применительно к требованию рандомизации. Одни факторы считаются заслуживающими внимания, другие – нет. Стоит ли, например, уделять внимание суточной динамике и при отсутствии возможности проводить большое число опытов одновременно, строго рандомизировать время отбора проб? При изучении фотосинтетической активности первичных продуцентов – несомненно, стоит, а при работе с зообентосом уже сомнительно. Очень наглядно эту сторону проблемы продемонстрировал Л. Оксанен (2001) в своем критическом анализе, формализованном в виде уравнения (1). Рандомизация никогда не повредит, а с точки зрения идеальной схемы – она всегда необходима, но очень часто безапелляционные требования абсолютной рандомизации могут доводить до абсурда. Должен ли лаборант, помещающий большое число пробирок в термостат, задумываться о взаимном расположении пробирок с разными уровнями воздействия? Нужно ли квалифицировать как псевдорепликацию результаты анализа воздействия химического реагента, когда в плане опыта имелись два стандартных гостированных аквариума?

В каждом эксперименте в той или иной мере применяется максима ceteris paribus, весь вопрос в том, в какой мере экспериментатор может на нее полагаться. Но здесь в игру вступает здравый смысл и накопленный в конкретной области опыт. И именно в этой плоскости, на наш взгляд, пролегает главный антагонизм между сформировавшимися в ходе дискуссии лагерями. Никем из дискурсантов не отрицается необходимость и важность ключевых элементов планирования хорошего эксперимента – репликации и рандомизации. Но С. Хелберт и М.В. Козлов настаивают на неприемлемости использования любой конвенциональной логики, кроме статистической, при анализе и интерпретации результатов эксперимента, а Л. Оксанен, Д.В. Татарников и многие другие защищают возможность использования нестатистической аргументации.

Понятие псевдорепликации как ошибочной интерпретации результатов неадекватно спланированного эксперимента исходно было сформулировано С. Хелбертом применительно к полевым экологическим экспериментам, где критическим элементом является перемешивание экспериментальных единиц в физическом пространстве. В этом контексте послание С. Хелберта было абсолютно своевременным и сыграло конструктивную роль. Однако излишняя категоричность в оперировании этим понятием, имеющая место в настоящее время, не может не вызывать тревоги. Многообразие научной и экспериментальной деятельности настолько велико, что попытки загнать все это в прокрустово ложе четких определений и схем представляются попытками объять необъятное и формализовать неформализуемое. “Наука – нежное растение, которое не будет благосклонно к садовнику, усвоившему себе привычку вынимать его с корнями, чтобы посмотреть, правильно ли оно растет” (Н. Винер, 1961). Именно в таком ракурсе нам видится слово- и терминотворческая деятельность С. Хелберта и М.В. Козлова.

Так возможен ли компромиссный вариант, удовлетворивший бы обе полемизирующие стороны? Нам представляется, что возможен. Следует признать, что явление псевдорепликации действительно бытует в экспериментальной практике, что оно составляет реальную проблему научного сообщества. Однако нельзя превращать требование рандомизации в догму, нужно позволить исследователям использование нестатистической аргументации. При этом главное, чтобы исследователь четко осознавал, где проходит грань между выводами статистическими и нестатистическими, а соответствующая аргументация четко разделялась между традиционными разделами “Результаты анализа” и “Обсуждение”. Псевдорепликацией следует считать лишь такую ситуацию, когда нестатистическая аргументация подменяется статистической. Если же исследователь четко очерчивает границы своего статистического анализа, никаких претензий к нему быть не может...

А. И, наконец, нельзя не согласиться со всеми участниками дискуссии в гл. 1, что возрастающие возможности вычислительной техники провоцируют исследователя на довольно рискованные вычислительные эксперименты и непродуманные выводы. Загружая в компьютер многофакторные матрицы данных, надо иметь в виду, что математическое моделирование, по В.В. Налимову (1971) и Р. Мак-Лоуну (1979), – “это искусство применения логики и математики, а не просто умение запускать стандартную программу.”
Приложение
Анализ индивидуального веса хирономид (численный пример)

Проверяется научная гипотеза о том, что индивидуальный вес особей личинок комаров-звонцов (отряд Diptera, сем. Chironomidae), живущих в загрязненных водоемах, отличается от аналогичного веса особей, живущих в чистых водоемах (Яковлев, 2001). Стандарным дночерпателем Экмана-Берджа в летние месяцы разных лет были взяты 37 гидробиологических проб со дна шести малых рек Самарской области, три из которых (Байтуган, Съезжая и Сок) имеют II класс качества вод (чистые), а три (Уса, Хорошенькая и Чапаевка) – IV-V класс качества (грязные). В ходе обработки проб были получены значения численности и биомассы различных видов хирономид. Путем деления биомассы на численность рассчитывается средний вес особи каждого вида в каждой пробе. Для примера статистического анализа было сформировано 6 выборок, содержащих от 27 до 45 значений среднего индивидуального веса особей (в микрограммах) для разных видов в разных пробах.

Необходимо оценить для этого показателя гипотезу об отсутствии различий между подопытными (грязные реки IV-V класса) и контрольными выборками (чистые реки II класса). Чтобы иметь возможность использовать параметрические критерии, были проверены основные предпосылки дисперсионного анализа. Поскольку предположение о нормальном законе распределения массы тела хирономид не подтверждалось ни визуально, ни по совокупности критериев согласия, было выполнено логарифмическое преобразование данных, после чего требование нормальности распределения можно считать выполненным (см. рисунок).

Индивидуальный вес (натуральные значения))

Логарифмы индивидуального веса

Гистограммы распределения массы тела хирономид до (слева) и после (справа) логарифмирования; по оси ординат представлена встречаемость

В табл. 1 представлены статистические характеристики всех 6 выборок до и после логарифмического преобразования.

Таблица 1

Характеристики выборок индивидуального веса хирономид для шести рек Самарской области

Наименование водотоков

Катего-рия

Объем выборок

Натуральный вес, мкг

Логарифм веса

m

s

По группам

Общий

m

s

По группам

Общий

Уса

Г

31

2331

3054

m=1942
s=2910

m=1384
s=1867

3.07

0.477

m=2.96
s=0.496

m=2.79
s=0.517

Хорошенькая

Г

26

1194

1864

2.80

0.455

Чапаевка(ст. 15-17)

Г

40

2127

3304

2.99

0.519

Байтуган (ст.1)

Ч

44

1610

2916

m=958
s=1867

2.80

0.566

m=2.65
s=0.492

Съезжая

Ч

39

540

385

2.61

0.347

Сок (ст. 5)

Ч

44

676

949

2.54

0.497

Примечание: m – среднее арифметическое; s – стандартное отклонение; Г - грязные, Ч - чистые.

Вариант 1. Объединяем между собой выборки прологарифмированных значений для чистых и грязных рек, рассчитываем средние и вариансы для опыта и контроля по объединенным данным и проверяем гипотезу о равенстве средних:

критерий Стьюдента t = -3.1, уровень значимости критерия p = 0.00247;

критерий Манна-Уитни U = 4115, уровень значимости критерия p = 0.000021.

Гипотеза о равенстве среднего индивидуального веса хирономид для трех чистых и трех грязных рек отклоняется с высоким уровнем значимости.

Определяющим фактором эксперимента (в данном случае пассивного) является степень загрязненности водотока на фоне существенной ландшафтно-гидрологической неоднородности рек, специфики макрозообентосных сообществ, возможного многолетнего климатического тренда, условий обработки проб и прочих не учитываемых факторов. Поэтому в этом варианте анализа нельзя с полной уверенностью сказать, обусловлены ли выявленные различия эффектом воздействия (степенью загрязненности рек) или биоценотическими особенностями. По С. Хелберту, в этом анализе имеет место простая псевдорепликация, где смешивается эффект "загрязнения" и эффект "реки".

Вариант 2. В соответствии с воззрениями С. Хелберта и М.В. Козлова отдельные реализации индивидуального веса представляют собой множественные измерения экспериментальной единицы, которой является река. Результаты эксперимента не зависят от объема выборки, полученной на каждом водотоке и общее число степеней свободы составляет только (6 - 2), а не (224 - 2).

По шести значениям групповых средних рассчитываем средние и вариансы для опыта и контроля и сравниваем их по t-критерию:

для группы чистых рек m = 2.65 и s = 0.132, для грязных рек m = 2.95 и s = 0.141;

критерий Стьюдента t = 2.74 , уровень значимости критерия p = 0.052;

критерий Манна-Уитни U = 0.5, уровень значимости критерия p = 0.081 (приведен с полным осознанием абсурдности ситуации).

По формальным соображениям гипотеза о равенстве средних не отвергается. Напомним однако, что правомочное использование t-критерия Стьюдента предполагает корректный способ оценки генеральных дисперсий. Легко заметить, что найденные по этому варианту значения s являются результатом "вычислительной эквилибристики" с групповыми средними и примерно в 4 раза меньше, чем полученные оценки стандартного отклонения для реальных выборок (см. табл. 1).

Вариант 3. Выполняем однофакторный дисперсионный анализ на полном наборе данных (фактор – водоем, где проведены измерения). Число степеней свободы определяем на основе объемов выборок для каждого водоема. По С. Хелберту, это – проявление множественности измерений для одной экспериментальной единицы и псевдорепликация.

Общий итог анализа – гипотеза об однородности выборок отвергается с высоким уровнем значимости по F-критерию:

F = = 6.85, уровень значимости критерия р = 0.000006,

однако это не означает, что выявленные различия определяются именно чистотой реки.

Поскольку гипотеза об однородности тестируемых водоемов не подтверждается, то можно выяснить, какие из рек попарно отличаются друг от друга по индивидуальному весу хирономид. В табл. 2 представлены результаты апостериорного попарного сравнения средних по методу Г. Шеффе и с использованием LSD-критерия (наименьшей значимой разности). По существу анализа можно лишь констатировать, что различия между представителями разных групп рек (чистых и грязных) наблюдаются чаще, чем внутри группы.
Таблица 2

Матрица попарных множественных сравнений шести рек

{1}

{2}

{3}

{4}

{5}

{6}

Уса {1}

1

0.463

0.99

0.328

0.009

0.0007

Хорошенькая {2}

0.032

1

0.781

1

0.812

0.475

Чапаевка {3}

0.459

0.118

1

0.676

0.04

0.004

Байтуган {4}

0.017

0.976

0.077

1

0.684

0.282

Съезжая {5}

0.0001

0.135

0.0007

0.08

1

0.994

Сок {6}

0.000005

0.034

0.000035

0.013

0.502

1

Примечание: жирным шрифтом даны p-значения, соответствующие отклоненной гипотезы о равенстве среднего индивидуального веса хирономид, выше главной диагонали – проверка по методу Г.Шеффе, ниже - с использованием LSD-критерия.

Вариант 4. Используем алгоритм иерархического дисперсионного анализа, где в качестве фиксированного фактора А примем "Категорию грязная/чистая река", т.е. статистический вывод о его влиянии касается только тех фиксированных значений, которые мы задали априорной группировкой. Случайный фактор В(А), вывод о котором более общий и распространяется на все возможные градации фактора, составляет влияние различий между самими реками внутри групп с одинаковым значением фактора А. Отдельно выделяется доля случайной вариации показателя внутри групп фактора В (и тем самым внутри групп фактора А) – "остаток {error}" в табл. 3.

На первом этапе рассчитываем сумму квадратов SS_A отклонений, обусловленную фиксированным фактором А, а остальную сумму квадратов раскладываем по методу Г. Шеффе на две компоненты: SS_B(A) и SS_error. Далее проверяется нулевая гипотеза "Нет различий в среднем индивидуальном весе хирономид между водоемами разных категорий качества вод", для чего факториальный средний квадрат MS_A сравнивается с вариансой MS_B(A),определяющей изменчивость биотопов (рек) внутри групп с одинаковым классом качества вод. Число степеней свободы для SS_B(A) находим с учетом поправки Статтертвайта. Проверка значимости факториальный вариансы MS_A по критерию Фишера (см. табл. 3) показывает, что эта нулевая гипотеза находится в пограничной области принятия решения (р = 0.051) и однозначно принята быть не может.
Таблица 3

Результаты сравнения средних квадратов отклонений, полученных в ходе двухфакторного иерархического анализа

Факторы

Эффект

Степени свободы df

Сумма квадратов SS

Средние квадраты MS

F-критерий

p-значение

1. Сравнение средних квадратов, обусловленных фактором А и случайным фактором В{А}

А Категория

Фиксированный

1

4.94

4.94

7.43

0.051

В{А} Река

Случайный

4.083

2.71

0.666

2. Сравнение средних квадратов, обусловленных фактором В{А} и "остатком"

В{А}' Река

Случайный

4

2.71

0.679

2.87

0.024

Остаток (error)

218

51.47

0.236

Итого

223

59.56

0.267

На следующем этапе проверяется вторая нулевая гипотеза, которая звучит как "Нет различий в среднем весе хирономид в разных реках в пределах групп рек с одинаковым классом качества вод". Для этого варианса MS_B(A) сравнивается с остаточным средним квадратом MS_error, определяющим внутреннюю видовую изменчивость хирономидного комплекса внутри каждого водотока. Эта гипотеза отвергается с достаточно высоким уровнем значимости (p = 0.024). Таким образом, влияние изучаемого фактора – степени загрязненности – можно считать недоказанным на фоне изменчивости массы тела зообентонтов внутри и между отдельными биотопами. Для уточнения научного предположения требуется дополнительный эмпирический материал.

В приведенном примере мы ограничились выделением двух составляющих вариации индивидуальной массы хирономид, связанных со спецификой рек и их загрязненностью. Реальная иерархия экспериментальных данных существенно сложнее (см. раздел 2.4). Поэтому исследователю, действительно заинтересованному в детальном изучении научной проблемы, необходимо выполнить многофакторный дисперсионный анализ, в ходе которого оценить значимость и долю вариации, создаваемой неоднородностями факторов на каждом иерархическом уровне: а) внутривидовую изменчивость массы тела особей; б) межвидовую вариацию этого показателя для разных подсемейств или триб; в) влияние условий взятия гидробиологических проб; г) неоднородность отдельных участков реки; д) изменчивость между реками внутри одной категории качества; е) влияние загрязненности водотока.

Несмотря на то, что главный вывод по этому варианту практически в точности совпал с результатом, полученным по процедуре 2, предлагаемой С. Хелбертом, иерархический метод MANOVA видится нам более устойчивым, обоснованным и предоставляющим значительно большие аналитические возможности, чем просто оценка уровня значимости р. И мы по-прежнему не рекомендуем проводить многоуровневое усреднение результатов эксперимента, рассчитывая на самом верху этой "пирамиды" среднее и дисперсию по 3-4 значениям, полученным из предыдущего уровня. Это, по меньшей мере, несерьезно.

Дальше Назад Начало Список На главную

Наименование водотоков	Катего-рия	Объем выборок	Натуральный вес, мкг				Логарифм веса
Наименование водотоков	Катего-рия	Объем выборок	m	s	По группам	Общий	m	s	По группам	Общий
Уса	Г	31	2331	3054	m=1942 s=2910	m=1384 s=1867	3.07	0.477	m=2.96 s=0.496	m=2.79 s=0.517
Хорошенькая	Г	26	1194	1864			2.80	0.455
Чапаевка(ст. 15-17)	Г	40	2127	3304			2.99	0.519
Байтуган (ст.1)	Ч	44	1610	2916	m=958 s=1867		2.80	0.566	m=2.65 s=0.492
Съезжая	Ч	39	540	385			2.61	0.347
Сок (ст. 5)	Ч	44	676	949			2.54	0.497

	{1}	{2}	{3}	{4}	{5}	{6}
Уса {1}	1	0.463	0.99	0.328	0.009	0.0007
Хорошенькая {2}	0.032	1	0.781	1	0.812	0.475
Чапаевка {3}	0.459	0.118	1	0.676	0.04	0.004
Байтуган {4}	0.017	0.976	0.077	1	0.684	0.282
Съезжая {5}	0.0001	0.135	0.0007	0.08	1	0.994
Сок {6}	0.000005	0.034	0.000035	0.013	0.502	1

Факторы	Эффект	Степени свободы df	Сумма квадратов SS	Средние квадраты MS	F-критерий	p-значение
1. Сравнение средних квадратов, обусловленных фактором А и случайным фактором В{А}
А Категория	Фиксированный	1	4.94	4.94	7.43	0.051
В{А} Река	Случайный	4.083	2.71	0.666
2. Сравнение средних квадратов, обусловленных фактором В{А} и "остатком"
В{А}' Река	Случайный	4	2.71	0.679	2.87	0.024
Остаток (error)		218	51.47	0.236
Итого		223	59.56	0.267