Вперед К следующему разделу Назад К предыдующему разделу Конец К концу разделу Список К оглавлению

3. Проверка модели IBD (Isolation-by-distance) с использованием теста Мантеля и регрессионного анализа

Пространственная гетерогенность популяции B.bidens , как видно на рис. 1.2, обусловлена прежде всего “выпадением” из общей картины субпопуляций № 7 и № 12. Однако, если поставить перед собой более широкие цели, то можно задаться вопросом о возможном присутствии пространственной структурированности популяции. Естественно, нулевой гипотезой (которую нам и следует проверить) будет утверждение о том, что наша популяция не обладает ни какой пространственной структурой, т.е. значения частот встречаемости признака в различных ее частях (субпопуляциях) является результатом случайных процессов.

Альтернативная гипотеза, напротив, будет утверждать, что популяция пространственно структуририрована, т.е. более близкие субпопуляции будут ближе в отношении частот фенов, чем более удаленные и определяется это, прежде всего, более высокой частотой обмена генетической информацией между близлежащими субпопуляциями (т.е. имеет место поток генов – gene flow). Данная модель популяционной структуры имеет название модели “изоляции расстоянием” (isolation-by-distance; IBD). Ее мы и будем проверять.

В наиболее общем случае модель IBD можно проверить на основании уровня значимости коэффициента корреляции между соответствующими элементами двух матриц – матрицы попарных значений PST и матрицы географической удаленности между каждой парой субпопуляций.

Однако использовать в этом случае тривиальный коэффициент парной линейной корреляции Пирсона (или пусть даже непараметрические коэффициенты коррелции Кендалла и Спирмена) нельзя, поскольку элементы матриц не являются независимыми случайными величинами, как того требует теория и применимость данных коэффициентов. Единственным приемлемым в данной ситуации статистическим критерием является тест Мантеля, который как раз и предназначен для оценки уровня коррелированности между элементами двух квадратных матриц (конечно, одной размерности).

Матрица значений PST между каждой парой субпопуляций представлена в таблице 1.8. (Жирным курсивом в ней выделены достоверные значения PST .)

Таблица 1.8

Субпопуляция

2

3

4

5

6

7

8

9

10

11

3

-0,0123

X

4

-0,0138

-0,0147

X

5

0,0025

-0,0059

0,0025

X

6

-0,0125

-0,0075

-0,0180

0,0340

X

7

0,0411

0,0513

0,0334

0,1095

-0,0157

X

8

0,0248

0,0139

0,0268

-0,0146

0,0736

0,1548

X

9

-0,0190

-0,0249

-0,0203

-0,0282

-0,0014

0,0676

-0,0146

X

10

0,0023

0,0076

-0,0033

0,0482

-0,0302

-0,0054

0,0849

0,0143

X

11

-0,0326

-0,0347

-0,0354

-0,0213

-0,0322

0,0249

0,0027

-0,0431

-0,0614

X

12

0,0683

0,0552

0,0743

0,0081

0,1450

0,2248

-0,0078

0,0215

0,1467

0,0559

Оценка уровня значимости показателя PST в случае использования только двух выборок (субпопуляций) может быть получена путем расчета величины

,

(1.13)

которая имеет распределение Хи-квадрат с числом степеней свободы df = 1. Например, при сравнении субпопуляций № 2 и № 7 соответствующая оценка равна , а при сравнении субпопуляций № 7 и № 9: . Поэтому в первом случае отмечается достоверное отличие между субпопуляциями в отношении частоты встречаемости анализируемого признака (поскольку для df = 1 табличное значение χ2 α=0,05 = 3,84), а во втором – нет, хотя по абсолютному значению степень фенетической дифференциации между субпопуляцими № 7 и № 9 больше, чем между № 2 и № 7 (табл. 1.8).

Матрица географической удаленности между каждой парой субпопуляций по прямой (или, как ее еще называют, “по полету пчелы”) может быть построена после непосредственного измерения расстояния между расположением каждой парой субпопуляций на картосхеме (с соблюдением масштаба). Если же, с другой стороны, имеются координаты всех субпопуляций (локалитов) на той же картосхеме (конечно, в прямоугольной системе координат; географические широту и долготу использовать нельзя), то расстояния удаления могут быть и рассчитаны следуя закону Пифагора.

В таблице 1.9 приведены расстояния удаления между каждой парой субпопуляций B.bidens в пространстве анализируемой популяции.

Таблица 1.9

Субпопуляция

2

3

4

5

6

7

8

9

10

11

3

4

4

8

4

5

5,5

8,5

12,5

6

4

5,5

9

4

7

5,5

4

5,5

8

4

8

8,5

5,5

4

12

8

4

9

9

11,5

14

4

5,5

9

12,5

10

8

9

11,5

5,5

4

5,5

9

4

11

9

8

9

9

5,5

4

5,5

8

4

12

11,5

9

8

12

9

5,5

4

12

8

4

Значение коэффициента корреляции Мантеля между соответствующими элементами данных матриц (треугольных) можно получить по формуле:

(1.14)

где xij, yij – соответствующие элементы матриц X и Y; - средние значения для всех элементов матриц X и Y, соответственно; σx, σyсредние квадратичные значения для всех элементов матриц X и Y, соответственно; n – количество элементов в каждой матрице (= s·(s - 1)/2).

Таким образом, оценку данного показателя получить очень просто, даже не имея специального программного обеспечения, а даже в MS Excel. Для этого необходимо все элементы матриц выписать в два столбца (количество элементов в этих выборках будет для нашего примера n = 11·(11 - 1)/ 2 = 55). Далее от каждого элемента каждой выборки необходимо вычесть среднее значение по соответствующей выборке и поделить на среднее квадратическое отклонение соответствующей выборки (т.е. таким образом мы переходим к стандартизированным величинам). Найти сумму произведений пар этих величин и поделить эту сумму на n – 1 ( в нашем случае, на 54).

Для данных из анализируемой популяции B.bidens коэффициент корреляции Мантеля будет соответственно равен:

.

Однако оценить уровень значимости данной величины уже гораздо сложнее, поскольку отсутствует формула для расчета статистической ошибки клэффициента Мантеля и, соответственно, не может быть использована стандартная формула, использующая распределение Стьюдента.

Оценка уровня значимости полученной величины коэффициента Мантеля производится следующим образом. Одна из строк или один из столбцов матрицы географических расстояний меняется местами с другой строкой (или столбцом). Для полученной таким образом матрицей географический расстояний и матрицей парных значений PST рассчитывается коэффициент Мантеля. Далее производится перестановка еще двух случайным образом выбранных строк (или столбцов) и вновь рассчитывается коэффициент Мантеля. Данная операция проводится 1000, 5000 или 10000 раз. Среди полученных таким образом случайных оценок коэффициента Мантеля подсчитывается количество таких, которые больше или равны выборочной оценке данного коэффициента. Отношение этого числа к числу перестановок и есть оценка уровня значимости выборочного коэффициента Мантеля. Чем меньше это число, тем значимее (т.е. не случайнее) выборочное значение.

Данный метод оценивая уровня значимости коэффициента называется permutation-процедурой (т.е. перестановочной процедурой).

Выполнить ее вручную практически невозможно, поэтому для оценки коэффициента Мантеля необходимо специальное программное обеспечение. Мы рекомендуем для этих целей программу GenAIEx v.6 (Genetic Analysis in Excel). Одним из ее удобств является то, что она встраивается в MS Excel и может использовать те же данные, т.е. ей не нужен специальный формат файлов с данными (как во многих других программах, имеющих те же возможности). Другим удобством данной программы является ее свободное распространение. Ее free-версию можно “скачать” с сайта авторов: www.anu.edu.au/BoZo/GenAIEx.

Мы воспользовались данной программой и использовали 9999 перестановок. В итоге мы получили уровень значимости для коэффициента Мантеля p = 0,378. Таким образом, 3780 оценок коэффициента Мантеля, полученных для случайным образом образованных матриц, превышали или были равны выборочной оценке (-0,055), что свидетельствует о том, что нулевая гипотеза об отсутствии связи между соответствующими элементами двух анализируемых матриц не может быть отклонена.

Другими словами, с использованием теста Мантеля мы не получили доказательств модели IBD и распределение частот раковин моллюска B.bidens с пигментными пестринами в пределах исследуемой популяции носит случайный характер. Модель IBD может быть проверена с использованием модели линейной регрессии, где в качестве зависимой переменной выступают величины PST/(1-PST), рассчитанные на основании значений соответствующей матрицы (табл. 1.8), а в качестве независимой – натуральные логарифмы расстояний удаления, полученных из таблицы 1.9.

На рисунке 1.4 приведен график линейной регрессии ( Y = a + b·X) между соответствующими показателями, а в таблице 1.10 приведены коэффициенты данной линии регрессии, полученные стандартным методом (методом наименьших квадратов; использована программа STATISTICA v.5.5) и с помощью bootstrap-процедуры (используя 1000 повторных выборок; использована программа S-PLUS ).

Рис. 1.4. График линейной регрессии, используемой для проверки гипотезы IBD

 

Таблица 1.10

Коэффициенты регрессии

Метод наименьших квадратов

Bootstrap-процедура

оценки

доверительный интервал

a

0,0314 ± 0,0427

0,0335 ± 0,0348

[-0,0248; 0,1087]

b

-0,0040 ±0,0219

-0,0048 ± 0,0170

[-0,0370; 0,0280]

Оценки, полученные двумя способами достаточно близки; при этом на основании данных оценок мы также вынуждены отклонить нуль гипотезу о правомочности модели IBD в случае анализируемой популяции B.bidens.

 

Вперед К следующему разделу Назад К предыдующему разделу Начало К концу разделу Список К оглавлению