Дальше К следующему разделу Назад К предыдующему разделу Конец К концу разделу Список К оглавлению На главную На главную страницу сайта

2.2. О ЗНАЧЕНИИ ПРАВИЛЬНОЙ ТЕРМИНОЛОГИИ И ВРЕДЕ ОТ ПОДМЕНЫ ПОНЯТИЙ

Д.В. Татарников

Некорректность терминологии

Ответ М.В.Козлова и С. Хелберта (2006) на мою статью характерен полной подменой оппонентами предмета обсуждения и стилем изложения в духе агрессивного субъективизма, что вначале не вызвало желания продолжать дискуссию. Но общение с коллегами убедило меня, что я должен все же прояснить свою позицию.

О "псевдоповторностях" корректно говорить в случае, когда производится повторное определение значения параметра при отсутствии его варьирования. Пример такой ситуации - дробление поверхности однократно подброшенной монеты. Если разделить поверхность монеты, например, на 15 частей, затем отдельно определить результат подбрасывания монеты для каждой части, то "окажется", что монета упала вверх одной из своих сторон 15 раз подряд. В данном случае ошибка - как раз в природе самих повторов, которые невозможно статистически анализировать ввиду отсутствия их реального варьирования. Это и есть в буквальном смысле "мнимые", "фальшивые", "псевдо" повторности. В этом случае объект изучения целостен, степень свободы равна единице, а дробление объекта возвращает одну и ту же величину с учетом лишь ошибки измерения.

Пример с монетой М.В. Козлов (2003, с. 294) использует "для прояснения" природы статистических ошибок, якобы содержащихся в разбираемых примерах. Разумеется, когда экспериментатор имеет дело с собственным кошельком, он отчетливо представляет, сколько монет вытащил оттуда: только одну или целую пригоршню, каждая из которых, будучи подброшенной, статистически независима. Но составляющие сложного экологического эксперимента – далеко не монеты, и вопрос однозначной трактовки, что в каждом случае является локализованной "экспериментальной единицей", решается лишь искусством дебатирования и здравым смыслом, а не точным доказательством. Поэтому суть моей реплики М.В. Козлову (Татарников, 2005) состояла лишь в том, что я проанализировал приведенные им конкретные примеры на тождественность случаю дробления поверхности однократно подброшенной монеты и высказал свое убеждение в неверности этого вывода.

Таким образом, суть разногласий не в том, что не существует статистических проблем в рассматриваемых примерах (я вижу в них те же проблемы, что и оппоненты), а в том, что для их характеристики С. Хелберт и М.В. Козлов используют некорректную терминологию. В ответ мне продолжают доказывать, что статистические проблемы в этих примерах существуют. Можно гадать, связана ли такая подмена предмета обсуждения с тем, что мою статью оппоненты просто не поняли, но в их ответе нет ничего относительно моих реальных взглядов на обсуждаемую проблему.

Так называемые "единицы измерения" в рассматриваемых М.В. Козловым примерах представляют собой либо организмы, либо группы организмов, которые способны к автономному варьированию. Но ведь отдельные фрагменты поверхности монеты физически не способны к автономному варьированию: и случайные факторы, и любой экспериментальный фактор могут действовать только на всю монету как целое. В этом случае у системы фрагментов поверхности монеты имеется только одна степень свободы. А каждая "единица измерения", способная к физически автономному варьированию, имеет свою собственную степень свободы. Несмотря на то, что варьирование таких "единиц измерения" может не быть абсолютно статистически независимым, определенная доля независимости в этом случае всегда имеет место. Сваливать эти два нетождественных случая в одну кучу - значит нарушать главнейший закон формальной логики - закон тождества.

Ссылка на то, что терминология, придуманная С. Хелбертом (1984), получила распространение в курсах по статистике, не является аргументом в пользу ее безупречности. Например, в школьных учебниках написано, что направление тока на схемах следует указывать от "+" к "-", хотя всем известно, что электрический ток в проводниках - это движение отрицательно заряженных частиц от "-" к "+".

Pseudoreplication буквально - это то, что повторностями не является, но выглядит как повторность. Такое понятие неадекватно для автономно варьирующих "единиц измерения". Если их варьирование оказывается до определенной степени взаимозависимым, то этот феномен всегда имеет реальную причину. Это может быть "эффект" аквариума или вольера, эффект пространственной неоднородности в полевом опыте, эффект побочного нарушения при экспериментальном воздействии и т.п. При использовании таких повторностей для проверки достоверности действия экспериментального фактора наличие побочных эффектов искажает результат статистического анализа. Фактически статистический анализ обнаруживает совместный эффект экспериментального фактора и побочных случайных факторов. Доля собственно экспериментального фактора в обнаруженном эффекте остается неизвестной. Поэтому такие повторности правильно называть девальвированными: информация о действии экспериментального фактора, заключенная в них, обесценена побочными эффектами. Причем, ввиду того, что влияние неоднородности или локально действующих случайных факторов только гипотетическое, о степени девальвации можно судить только как о потенциальном феномене. Некорректный экспериментальный дизайн делает предположение об искажающем влиянии различных побочных эффектов правдоподобной гипотезой, и не более того. Однако такая гипотеза безусловно заслуживает проверки.

Некорректность оценок

Наличие некоторой связи между повторностями не обязательно ведет к критическим ошибкам в статистическом анализе и обесценивает содержание исследований, как пытается представить дело С. Хелберт. Распространение термина pseudoreplication на потенциально девальвированные повторности не просто терминологическая ошибка, а подмена понятий, имеющая далеко идущие последствия.

Если изучаемый признак является интегральным (плотность особей, полнота насаждения и т.п.) для всей "экспериментальной единицы", то ее дробление образует псевдоповторности в буквальном смысле слова, тождественные дроблению поверхности монеты. Статистический анализ подобных "повторностей" лишен смысла, так же как и работы, основанные на их анализе. Для иллюстрации приведу следующий пример. Предположим, что изучаемый параметр - это возрастная структура популяции плотвы в водохранилище. Для определения возрастной структуры производятся отдельные уловы в разных частях водоема. Соотношение рыб разного возраста в каждом конкретном улове - это выборочная оценка искомого генерального параметра - возрастной структуры популяции плотвы в водоеме. Количество необходимых уловов определяется точностью, с которой требуется определить изучаемый параметр. Однако при изучении влияния загрязненных стоков на возрастную структуру популяции плотвы отдельные уловы не могут рассматриваться как самостоятельные повторности. Каждый дополнительный улов не несет никакой дополнительной информации о влиянии загрязнения на возрастную структуру плотвы, отличаясь от предыдущих лишь ошибкой измерения. В таком случае популяция в отдельном водоеме - это всегда только одна повторность, так как определяется влияние фактора на ее интегральную характеристику.

Как ни курьезно, но такую ошибку допускает сам С. Хелберт (1984), причем как раз в том разделе, где он формулирует свое представление о псевдорепликации. Речь идет о примере 9, где разбираются "ошибочный" и "правильный" опыты по влиянию инсектицида на плотность жуков-вредителей. В "ошибочном" опыте инсектицид вносится на одну половину поля, а другая половина служит контролем. Предварительное определение плотности жуков на каждой из половин поля дало слегка различающиеся результаты. По мысли С. Хелберта, при большом числе повторов небольшие различия между половинами поля будут достоверно статистически диагностированы даже в отсутствие экспериментального эффекта. В "правильном" опыте на поле заложено множество небольших площадок, часть которых случайно отнесена к опыту, а другая часть - к контролю. Оба варианта абсурдны, поскольку плотность жуков - это интегральная характеристика всего поля, а не его половин или отдельных площадок. Полученная разница плотности жуков для двух половин поля отражает лишь ошибку выборочной оценки: жуки подвижны, а их локальная плотность на отдельных участках поля постоянно варьирует. Предлагаемые С. Хелбертом загородки вокруг опытных площадок не помогут, поскольку жуки способны летать. В обоих вариантах есть только одна повторность, и нет контроля. Вероятно, С. Хелберту следовало говорить о плотности сорной растительности и влиянии на нее гербицида. В этом случае его рассуждения были бы адекватны приводимому примеру. И подобные ошибки не позволяют представить статью как выдающееся методическое руководство по постановке биологических экспериментов.

Но если изучаемый признак - реакция отдельных организмов или групп организмов, которых может быть несколько в одной "экспериментальной единице", то дробление такой единицы в этом случае автоматически не ведет к ошибке. Ставить между этими двумя случаями знак равенства неправильно, а полностью отрицать любые работы, оперирующие с потенциально девальвированными повторностями, совершенно неадекватно. Конечно, следует принимать во внимание некорректность экспериментального дизайна в таких работах. Однако если разница между экспериментальной и контрольной группами высоко достоверна, а вывод о значительном влиянии изучаемого фактора на наблюдаемый параметр находится в хорошем согласии с принятой теорией и экспериментальной практикой в соответствующей области, то такая работа представляет бесспорную ценность. При этом прямое указание на то, что автор полагает на экспертном уровне несущественным вклад различных побочных эффектов в наблюдаемое различие экспериментальной и контрольной групп, в таких обстоятельствах совершенно необязательно. Это и так понятно. Требование оппонентов указывать этот вывод в явной форме как обязательное условие публикации подобной статьи, представляется крайним догматизмом.

Часто целью экологического эксперимента является оценка силы влияния фактора, т.е. масштаба изменения изучаемого параметра экосистемы при внешнем воздействии. Сам факт значимости такого воздействия, как правило, был установлен предыдущими исследованиями и текущий эксперимент уже не ставит своей целью проверку гипотезы о простом наличии эффекта. В этом случае влияние девальвации повторностей на результат опыта не критично для достижения поставленной задачи. Такова, в частности, работа К.А. Смирнова (2001). Как указывают оппоненты, использованная К.А. Смирновым изменчивость пригодна для выявления различий между огороженным и неогороженным участками, однако подобный анализ не может статистически доказать, что наблюдаемые различия возникли вследствие огораживания” (Козлов, Хелберт, 2006, с. 149). Но именно это и требовалось от статистического анализа - показать достоверность различий динамики растительности на огороженном и неогороженном участках. Для проведения эксперимента был выбран однородный лесной массив, не имевший значимых пространственных трендов, т.е. сходство любых двух площадок в его пределах не зависело от расстояния между ними. Поэтому пространственного перемешивания контрольных и экспериментальных площадок не требовалось. Предположение о несущественном вкладе случайных факторов в наблюдаемое различие между опытом и контролем К.А. Смирнов сделал на экспертном уровне. Поэтому я и утверждал (Татарников, 2005), что статистических ошибок в этой работе нет.

Целесообразно также посмотреть на работу К.А. Смирнова не только на абстрактном, но и на конкретном уровне. Автор установил, что на огороженном участке подлесок (рябина, черемуха и др.) разросся и сформировал сомкнутый ярус. Этот ярус составляли хорошо развитые экземпляры подлесочных пород 2-3-метровой высоты. Травяной ярус оказался разреженным в результате затенения ярусом подлеска. На прилегающем контрольном участке, окружающем огороженный участок со всех сторон, подлесок был представлен отдельными чахлыми, многократно объеденными лосем экземплярами тех же подлесочных пород высотой не более метра. Густой травяной ярус демонстрировал покрытие, близкое к 100%. Поскольку я видел этот опыт в натуре, могу удостоверить, что до огораживания так выглядел и экспериментальный участок. Интересно, какие случайные факторы могли создать такую картину, помимо собственно прекращения доступа лося на огороженный участок? Единственное, что можно придумать - это направленные действия научных недругов К.А.Смирнова, которые на контрольном участке повреждали экземпляры рябины и черемухи, имитируя влияние лося, а на огороженном участке поливали подлесок биостимуляторами. Если говорить серьезно, то отказывать этой интересной работе в публикации на том основании, что, по мнению некоего "эксперта-статистика", обнаруженный К.А. Смирновым эффект огораживания мог быть вызван с равной вероятностью (sic!)... множеством других неучтенных факторов” (Козлов, 2003, с. 294), для любого, кто разбирается в лесной экологии, абсолютно неадекватно.

В этой связи важно отметить следующую деталь. Если исследователю известно, какое реальное физическое взаимодействие лежит в основе действия изучаемого фактора, и он может наблюдать такое взаимодействие непосредственно, то существуют все основания полагать, что изучаемый фактор действует реально. В приведенном примере К.А. Смирнов непосредственно наблюдал, что лось продолжал объедать подлесок на контрольном участке и прекратил это делать на огороженном. Поэтому его заключение, что различия в характере растительности на контрольном и огороженном участках связаны с разным воздействием лося, является экспертным, а не "интуитивным", как утверждают С.Х. Хелберт и М.В. Козлов.

В случае, когда о реальном действии фактора в изучаемых условиях ничего заранее не известно, тогда некорректный дизайн эксперимента и последующий анализ заметно обесценивают работу, особенно в случае слабо проявляемого воздействия. Низкая достоверность выявленного эффекта действия изучаемого фактора на фоне высокого случайного варьирования измеряемых параметров не позволяет в этом случае сделать обоснованных выводов о действии фактора. Тем не менее такая работа все равно имеет определенную ценность, поскольку предоставляет фактический материал о действии фактора, влияние которого ранее не изучалось, и статистические выводы в условиях потенциально девальвированных повторностей, уточняемые в последующих экспериментах. И только в случае, когда (i) выводы работы противоречат результатам других работ и общепринятой точке зрения; (ii) различия между опытной и контрольной группами слабо достоверны; (iii) опыт некорректно спланирован и используются девальвированные повторности, то ценность такой работы представляется сомнительной. Опровержение научных догм требует исключительной методической корректности.

Все вышесказанное касается лишь оценки уже выполненных работ и возможного влияния потенциально девальвированных повторностей на их результаты. Но это не значит, что автор считает использование таких повторностей в полной мере корректным и призывает намеренно игнорировать возможные негативные последствия при их анализе.

Масштаб пространственной неоднородности

Идея С. Хелберта (Hurlbert, 1984) проста: чем сильнее мы дробим локальный участок, тем достоверней полученная выборка отражает специфику такого участка. Эта общая особенность статистического анализа: чем больше объем сравниваемых выборок, тем достовернее можно выявить их различия статистическими методами. Участок площадью 1 м2 можно представить одной единой площадкой, 4 площадками 50´ 50 см, 16 площадками 25´ 25 см, 25 площадками 20´ 20 см, 100 площадками 10´ 10 см и т.д. Увеличение числа площадок не добавляет новизны в характеристику локальной неоднородности, так как не меняется обследуемая поверхность. Однако такая постановка вопроса кажется не совсем точной, поскольку меняется не только количество сопряженных площадок, но и их размер. Если задать фиксированный размер таких площадок, например 20´ 20 см, то картина качественно изменится. Четыре сопряженные площадки 20´ 20 см при их максимально компактном размещении составят площадку 40´ 40 см общей площадью 0.16 м2. Шестнадцать таких площадок составят уже площадку 80´ 80 см общей площадью 0.64 м2. Если в их числе будут исходные 4 площадки, то их доля в общей площади составит только 25%. Тридцать шесть таких площадок образуют уже площадку 120´ 120 см, причем площадь 4 исходных площадок составит только девятую часть от всей характеризуемой площади. Иными словами, с увеличением числа площадок растет характеризуемая ими площадь, а следовательно, постоянно появляется новая информация о локальных особенностях. Поскольку размер сопряженных площадок может выражаться не только в десятках сантиметров, но и в сотнях метров и в десятках километров, то становится понятно, что проблема не так проста, как ее представляет С. Хелберт.

Локальная неоднородность всегда имеет определенный масштаб своего проявления. В экосистемах неоднородность реализуется в виде ряда иерархических уровней, каждый из которых имеет свой пространственный масштаб. Низший уровень - это область индивидуального варьирования отдельных организмов или даже их частей. Обычно именно на этом уровне проводится оценка результатов экологических экспериментов. Любой из более высоких уровней выбирается как пространственный диапазон, в котором экстраполируются обнаруженные в эксперименте закономерности. При этом все опытные и контрольные варианты должны укладываться в одну или несколько идентичных пространственных единиц соответствующего уровня. А вот именно промежуточные уровни, расположенные между уровнем, на котором проводится измерение изучаемых параметров, и уровнем, который характеризуют в данном эксперименте, определяют ту пространственную неоднородность, которая может сочетаться с экспериментальным эффектом и влиять на результат эксперимента. Соотнесение размеров пространственной мозаики соответствующих уровней с размещением учетных площадок в экологическом эксперименте определяет возможную девальвацию использованных повторностей.

Проиллюстрирую это на примере уже упоминавшейся работы К.А. Смирнова (2001). Уровень измеряемой единицы в указанной работе - это параметры индивидуальных растений. Характеризуемый уровень - ельник-кисличник. Обычно эксперимент проводят на однородном участке растительности, приуроченном к конкретному элементу мезорельефа: вершине холма, крутому или пологому склону определенной экспозиции, ложбине стока и т.п. В работе К.А. Смирнова изучаемый участок растительности располагается в верхней части пологого склона. Промежуточный уровень пространственной неоднородности при изучении подчиненных ярусов леса образуют фитогенные поля отдельных деревьев: область тени от их крон и зона горизонтального распространения их корневых систем. Разница между элементами пространственной мозаики этого уровня в изучаемом сообществе состоит не в том, что в одних элементах влияние деревьев есть, а в других нет (прогалы в пологе), а лишь в том, что влияние отдельных деревьев не является абсолютно одинаковым. Разные деревья отличаются относительными размерами, физиологическим состоянием, наличием заболеваний и т.п. Кроны одних деревьев плотнее, чем других; корневые системы также могут функционировать с разной интенсивностью. Наложение фитогенных полей (зон влияния) отдельных деревьев образует элементарные ячейки пространственной мозаики данного уровня площадью несколько квадратных метров. Влияние различий между условиями в разных ячейках на определяемые в эксперименте параметры отдельных растений подчиненных ярусов едва ли велико, но вполне возможно. Однако анализ размещения учетных площадок показывает, что каждая площадка попадает в отдельную ячейку, поскольку расстояние между отдельными площадками, как на огороженном участке, так и на контрольном более 3 м. Распределение таких ячеек по площади характеризуемого однородного участка растительности случайное. Поэтому пространственная неоднородность промежуточного уровня никак не девальвирует повторности в опыте, оказываясь целиком включенной в неопределенное варьирование.

Представляется полезным отметить, какова судьба пространственной неоднородности промежуточного уровня при разных вариантах размещения учетных площадок, упоминаемых в работе С. Хелберта (1984). Дробление единичной экспериментальной единицы, квалифицируемое С. Хелбертом как "простые псевдоповторы", в случае, когда такая экспериментальная единица целиком размещается в одной ячейке пространственной неоднородности промежуточного уровня, ведет к объединению эффекта пространственной неоднородности и эффекта изучаемого в опыте фактора. При этом эффект пространственных различий между контрольной и экспериментальной единицами может подменить экспериментальный эффект, если изучаемый фактор не оказывает на измеряемый параметр никакого влияния, на что акцентировано указывает С. Хелберт. Кроме того, эти эффекты могут усиливать друг друга или ослаблять, что также скажется на результате статистической обработки. Однако если экспериментальная единица значительно больше площади отдельных ячеек пространственной неоднородности, то эффект такой неоднородности будет включен преимущественно или целиком (как в работе К.А. Смирнова) в неопределенное варьирование.

В случае случайного или систематического пространственного перемешивания отдельных опытных и контрольных площадок, на чем настаивает С. Хелберт, эффект пространственной неоднородности промежуточного уровня целиком включается в неопределенное варьирование. И лишь в варианте с блоками спаренных контрольной и опытной площадок в отдельных локализациях, при условии что каждый блок размещается в отдельной ячейке пространственной неоднородности промежуточного уровня, эффект такой неоднородности полностью исключается из статистического анализа влияния экспериментального фактора. Поэтому только последний вариант является методически верным, тогда как С. Хелберт ошибочно ставит знак равенства между блоковым размещением учетных площадок и их равномерным пространственным перемешиванием.

И, наконец, когда случайно перемешанные экспериментальные и контрольные единицы подвергаются дроблению с целью увеличения объема выборки (что С. Хелберт называет "жертвенной псевдорепликацией", а М.В. Козлов - "вторичными псевдоповторами"), результат такого дизайна неоднозначен. С. Хелберт (1984) и М.В. Козлов (2003) утверждают, что такой дизайн повышает достоверность различий между опытной и контрольной совокупностями, т.е. по их мнению пространственная неоднородность в этом случае усиливает экспериментальный эффект. На самом деле это произойдет только в случае, (i) когда контрольные и экспериментальные единицы неравномерно распределены между элементами пространственной неоднородности (т.е. нарушено условие их случайного пространственного размещения) или (ii) когда отдельные контрольные или экспериментальные единицы раздроблены на разное количество учетных единиц таким образом, что одни локализации будут представлены в итоговом массиве данных в большей степени, чем другие. Более вероятно включение локальных особенностей экспериментальных и контрольных единиц в неопределенное варьирование и тем самым понижение достоверности влияния экспериментального фактора на измеряемый параметр. Влияние локальных особенностей масштаба, сопоставимого с размером экспериментальных единиц, можно исключить в двухфакторном иерархическом дисперсионном анализе.

Методический аспект проблемы.

Автоматически записывать все потенциально девальвированные повторы в "псевдоповторы" вредно и с методической точки зрения. Это по сути "страусиная позиция". Вместо того, чтобы объявлять такие повторности дефективными, необходимо разбираться, имеет ли место значимый побочный эффект и что послужило его причиной. Считать повторами только целые "экспериментальные единицы", как предлагают С. Хелберт и М.В. Козлов, приемлемо только в случае, когда "экспериментальных единиц" много. Если же их считанные единицы, то объем выборки будет очень мал, а разрешающая сила статистических методов ничтожна.

Использование многофакторных подходов явно перспективнее "перемешивания повторностей" при однофакторном подходе, на котором замыкается все "Учение" С. Хелберта. Правильный способ борьбы с неоднородностью и другими побочными эффектами в экологических экспериментах - это не подбор максимально однородных условий или пространственное перемешивание опытных и контрольных повторностей, а учет неоднородности как самостоятельно действующего комплексного фактора с помощью многофакторного дисперсионного анализа. В этом случае и информации можно получить больше и разрешающая способность статистических методов выше. Это произойдет как за счет понижения уровня случайного варьирования (из него исключается влияние пространственной неоднородности), так и за счет увеличения объема выборки при том же числе "экспериментальных единиц". Их дробление уже не ведет к увеличению риска ошибочных выводов, если "экспериментальных единиц" несколько в каждом варианте опыта, что позволяет разделить влияние экспериментального воздействия и пространственной неоднородности.

Кстати, если сравнить результат такого многофакторного анализа с анализом однофакторным, то можно однозначно оценить, достоверно ли влияние фактора пространственной неоднородности на измеряемый параметр и какова степень девальвации повторностей в однофакторном опыте (насколько различается достоверность действия изучаемого фактора, выявляемая по результатам однофакторного и многофакторного анализов). Нулевая гипотеза для фактора неоднородности - это и есть гипотеза, что любые два объекта, подвергающиеся тому же воздействию, в остальном находятся в условиях, сходство между которыми в среднем не превышает сходства между условиями, в которых находится любая пара объектов, испытывающих различные воздействия” (Козлов, Хелберт, 2006, с. 147) на принятом уровне значимости.

Ввиду всего вышесказанного, взгляды С. Хелберта и его последователей на постановку биологических экспериментов и статистический анализ их результатов представляются автору настоящей статьи односторонними и тенденциозными, а критика ими работ многих экологов необоснованной и неадекватной.

Дальше К следующему разделу Назад К предыдующему разделу Начало К началу разделу Список К оглавлению На главную На главную страницу сайта