Дальше К следующему разделу Назад К предыдующему разделу Начало К началу разделу Конец К концу разделу Список К оглавлению

8.3. Дискриминантные функции для классификации многомерных объектов

Формулировка задачи

Пусть задано пространство признаков X размерностью m > 1, точками которого являются конкретные гидробиологические измерения x = {x1,…, xi,…,xm}, где xi – значения численности или биомассы i-й таксономической группы гидробионтов в пробе, либо некоторые обобщенные индексы. Исходная таблица наблюдений разбита на P непересекающихся подмножеств строк, где каждой строке x поставлен в соответствие некоторый класс качества yk, k = 1,2,…, p, причем любому из P классов принадлежит не менее одного объекта. Содержательный смысл задаваемой системы классификации {у1, у2, …, yp } применительно к гидробиологическим исследованиям может иметь вполне произвольное толкование (например, любые градации сапробности, токсобности, классов качества вод, типов водоемов, природно-климатических зон и т.д.).

Необходимо определить набор формальных решающих правил, позволяющих для произвольного измерения х из Х указать класс качества yk, к которому оно принадлежит.

С одним из методов классификации мы уже познакомились в предыдущем разделе, рассматривая логит- и пробит-анализ, как частный случай множественной регрессии. Другие решающие правила, формируемые на основе вероятностных методов, могут быть получены:

Рекомендуемая литература: [Урбах, 1964; Дуда, Харт, 1978; Кравцов, Милютин, 1981; Айвазян с соавт., 1989; Ким с соавт., 1989].

Математический лист

Байесовская схема принятия решений

Параметрические методы распознавания для поиска оптимальных дискриминационных функций используют аппроксимацию функции вероятностного распределения исходных данных и сводятся к определению отношения правдоподобия в различных областях многомерного пространства признаков. Классификатор может быть непосредственно построен из формулы условных вероятностей Байеса, описанной в разделе 7.4 и апеллирующей к априорным вероятностям принадлежности объектов к тому или иному распознаваемому классу и условным плотностям распределения значений вектора признаков.

Если априорные вероятности появления каждого класса равны, то вероятность того, что вектор x принадлежит классу yi равна:

.(8.19)

Очевидно, что наибольшая из величин P(x/yi) и будет обеспечивать наименьшую вероятность неправильной классификации или наименьший средний риск. Решающее правило можно сформулировать следующим образом: вектор измерений х принадлежит классу yi, если

P(x/yi) > P(x/yj) " i ¹ j .(8.20)

Предположим, например, что каждый класс измерений описывается нормальным распределением и ковариационные матрицы С всех классов одинаковы. Тогда дискриминантная функция имеет следующий вид [Стьюпер с соавт., 1982]:

,(8.21)

где mi, mj – математические ожидания векторов классов i и j. Для того, чтобы классифицировать произвольный вектор х, нужно рассчитать значения функции для всех возможных пар i и j при i ¹ j и отнести измерение к тому классу, для которого отношение условных вероятностей имеет наибольшее значение.

Если ковариационные матрицы классов неодинаковы, то добавляется некоторая функция потерь или платежная матрица, элементами которой Rij являются значения штрафов за неправильную классификацию, когда объект х относят к классу j, когда как он принадлежит классу i. Чаще всего используют платежную матрицу R стандартного вида: ее элементы равны 0, если решающее правило правильно отнесло измерение к своему классу, и 1, если имела место ошибочная классификация. Нетрудно видеть, что при этом функционал среднего байесовского риска превращается в вероятность ошибочной классификации.

В простейшем случае для одной переменной и при двух классах процесс разделения можно представить графически на рис. 8.5. Если выборки признака Х, относящиеся к обоим классам, подчинены нормальным законам распределения с дисперсией s и средними m1 и m2, то пороговая величина хо позволяет оптимальным образом разделить признаковое пространство на две области:

,(8.22)

где l 0 – критическое значение коэффициента правдоподобия, который зависит от платежных коэффициентов и априорных вероятностей появления объектов первого и второго класса. Если r11 = r22 = 0, r12 = r21 и априорные вероятности равны, то l 0 = 0 и линия хо проходит посередине между средними обоих классов.

Рис. 8.5. Распределение двух совокупностей 1 и 2 по признаку Х

Формула Байеса и оптимальные параметрические решающие правила могут быть использованы, если возможна достаточно точная аппроксимация функции плотности распределения данных. Если эта аппроксимация на основе обучающей выборки недостаточно точна, то и решающая функция будет далека от оптимальной. Сложность расчетов по восстановлению условных функций распределения F(x/yi) или ее плотности р(x/yi), i =1,2,…, l, является самым большим препятствием к использованию параметрических методов в многочисленных приложениях.

Однако, когда вид кривой плотности распределения неизвестен и нельзя сделать вообще никаких предположений о ее характере, то все равно общую стратегию Байеса можно обобщить на любой непараметрический метод расчета с участием двух матриц – платежной матрицы R и диагностической матрицы P, содержащей некоторые оценки условных вероятностей отнесения объекта к каждому классу, если объект имеет определенную комбинацию признаков. Существует значительное множество различных алгоритмов формирования диагностической матрицы P, использующих разные эвристические предположения их авторов. Расчет оценок может быть основан, например, на использовании метода многомерных гистограмм (частот встречаемости в различных классах объектов обучающей выборки, содержащих тот или иной признак [Гублер, 1978]), средних мер близости для компактных подмножеств объектов [Журавлев, 1978], нормированных разностей между внутригрупповыми средними и общим средним значением признака, эвристиках Е. Парзена [Parzen, 1962] и Э.А. Надарая [1964] и т.д.

Методы линейного дискриминантного анализа

Основной целью дискриминации является нахождение такой линейной комбинации переменных, которая бы оптимально разделила рассматриваемые группы. Линейная функция

dik = aok + a1k× xi1k + a2k× xi2k + … + ajk× xijk + …+ amk× ximk , (8.23)

при i = 1, 2,…, nk ; k = 1, 2,…, p; называется дискриминантной функцией с неизвестными коэффициентами ajk . Здесь dikрасчетное значение функции для i-го объекта из группы k, состоящей из совокупности nk измерений; xijkзначение j-й дискриминантной переменной, j = 1,2,…,m – столбцы матрицы наблюдений.

В общем случае необходимо рассчитать p линейных дискриминантных функций, равное количеству анализируемых популяций, после чего с использованием коэффициентов ajk и постоянной a0k можно провести классификацию любого произвольного наблюдения. Для этого необходимо подставить значения переменных вектора х в дискриминантные уравнения для каждой k-й группы и рассчитать значения оценок отклика, k = 1, 2,…, p. Вектор х классифицируется как принадлежащий тому классу (группе измерений, популяции) k, для которого величина dk имеет максимальное значение.

Для расчета коэффициентов дискриминантных функций нужен статистический критерий, оценивающий различия между группами. Очевидно, что классификация переменных будет осуществляться тем лучше, чем меньше рассеяние точек относительно центроида внутри группы и чем больше расстояние между центроидами групп. Один из методов поиска наилучшей дискриминации данных заключается в нахождении таких дискриминантных функций dk, которые были бы основаны на максимуме отношения межгрупповой вариации к внутригрупповой.

Многомерное нормальное распределение случайной величины xijk характеризуется следующими статистическими компонентами:

Если расположение центров классов различается между собой, то степень вариации наблюдений внутри классов будет меньше общего статистического разброса: wjl < tjl, причем, чем больше расхождение этих величин, тем ощутимее влияния фактора группировки. Введем матрицу разницы этих двух матриц B, которая представляет собой межгрупповую сумму квадратов отклонений и попарных произведений B = TW (т.е. bjl = tjlwjl). Величины элементов B по отношению к величинам элементов W дают меру различия между группами.

Коэффициенты aok, a1k, a2k,…, amk разделяющих функций могут быть найдены по методу дискриминантного анализа Фишера как элементы матрицы, обратной к W, что соответствует общей вычислительной процедуре множественной линейной регрессии. Более сложным в математическом отношении является канонический дискриминантный анализ, где ищутся независимые или ортогональные функции, вклады которых в разделение совокупностей не будут перекрываться. С вычислительной точки зрения здесь проводится анализ канонических корреляций, в котором определяются последовательные канонические корни и вектора.

Для нахождения p наборов коэффициентов канонических дискриминантных функций необходимо решить систему уравнений:

.(8.26)

Как известно из курса линейной алгебры, собственными значениями квадратной матрицы В порядка m называются такие значения l j , при которых система следующих m уравнений имеет нетривиальное решение:

Вn j = l jn j , j = 1, 2,…, m,(8.27)

где n j собственные векторы матрицы В, соответствующие l j. Нетривиальное решение системы уравнений: Вn j = l j W n j , j = 1, 2,…, m, где B и W – симметрические положительно определенные матрицы, относится к обобщенной проблеме собственных значений и может быть получено путем замены переменных, используя разложение по Холецкому.

Используя компоненты собственных векторов n j для описанных выше ковариационных матриц B и W, находят путем нормировки p наборов нормированных коэффициентов канонических дискриминантных функций ajk = n jk (n - p)0.5. С геометрической точки зрения, полученные дискриминантные функции определяют гиперповерхности в m-мерном пространстве. В частном случае при m = 2 они являются прямыми, а при m = 3 – плоскостями. В этих обозначениях функция расстояния Махалонобиса, описанная в разделе 7.4 и учитывающая расстояние между центроидами двух классов k и r, будет равна:

.(8.28)

Заключительный этап дискриминантного анализа включает методы интерпретации межгрупповых различий и методы классификации наблюдений по группам. При интерпретации нужно ответить на вопросы: возможно ли, используя данный набор переменных, отличить одну группу от другой, насколько хорошо эти переменные помогают провести дискриминацию и какие из них наиболее информативны? Детальный анализ проводится с использованием объединенной матрицы ковариации T и ковариационных матриц для отдельных групп Wk , k = 1, 2,…, p.

Напомним еще раз основные предположения дискриминантного анализа. Во-первых, считается, что анализируемые переменные представляют выборку из многомерного нормального распределения. Отметим, однако, что пренебрежение условием нормальности обычно не является "фатальным" в смысле доверия к результатам расчетов. Более важно второе предположение о статистическом равенстве внутригрупповых матриц дисперсий и корреляций. При искусственном объявлении ковариационных матриц Wk статистически неразличимыми могут оказаться отброшенными наиболее важные индивидуальные черты, имеющие большое значение для хорошей дискриминации. Критерии, используемые для проверки этих предположений, обсуждались нами в разделе 5.2.

Так как дискриминантные функции находятся по выборочным данным, они нуждаются в проверке статистической значимости. Определяющим для дискриминантного анализа является проверка гипотезы об отсутствии различий между групповыми средними Ho : m1 = m2 = … mp, что является многомерным аналогом однофакторного дисперсионного анализа. Для этого может быть использовано обобщенное расстояние Махалонобиса, которое в матричном виде можно записать как

.(8.29)

На содержательном уровне его можно интерпретировать как взвешенную сумму расстояний от вектора средних каждой группы Xk· до общего вектора средних X· · . Если гипотеза Но верна, а объем выборки стремится к ¥ , то D2 может быть аппроксимирована F-распределением. Другим, в некоторых случаях более точным способом проверки гипотезы Ho является использование U-статистики Уилкса (она же – лямбда Вилкса), которая вычисляется как отношение детерминантов (det) матрицы внутригрупповой ковариации W и полной ковариационной матрицы Т :

U = det(W) / det(T).

Аппроксимация статистики U-Уилкса с помощью F-распределения была выполнена К. Рао.

Наиболее общим принципом применения дискриминантного анализа является включение в исследование по возможности большего числа переменных с целью определения тех из них, которые наилучшим образом разделяют выборки между собой. Для этой цели, как и в случае множественного регрессионного анализа, используется пошаговая процедура, в которой на каждом шаге построения модели дискриминации просматриваются все переменные и находится та из них, которая вносит наибольший вклад в различие между совокупностями. Эта переменная включается в модель на текущем шаге и происходит переход к следующему шагу. Можно также двигаться в обратном направлении и все переменные будут сначала включены в модель, а затем на каждом шаге будут устраняться признаки, вносящие наименьший вклад в предсказание. Пошаговая процедура дискриминантного анализа для отбора переменных основывается на F-критериях однофакторного дисперсионного анализа: “F-включения” и “F-исключения”. Значение F-статистики для переменной указывает на ее статистическую значимость при дискриминации между совокупностями и является мерой вклада признака в предсказание членства в группах. Тогда в качестве результата успешного анализа можно сохранить только наиболее информативные переменные модели, то есть те переменные, чей вклад в дискриминацию больше остальных.

Другим полезным критерием, используемым для селекции признаков, является коэффициент множественной корреляции R2 для соответствующей переменной со всеми другими переменными в текущей модели. При значениях R2, близких к 1, анализируемый признак полностью определяется комбинацией других признаков и является избыточным. При сильной взаимной коррелированности переменных матрица задачи становится плохо обусловленной, что резко сказывается на погрешностях расчетов. И, наконец, дискриминантные функции представляются аналогами главных компонент, поэтому для нахождения оптимального числа переменных можно воспользоваться критериями, оценивающими остаточную дискриминантную способность, под которой понимается способность различать группы с помощью переменных, не включенных в модель. Это может быть, например, L -статистика, вычисляемая по формуле:

.(8.30)

Если остаточная дискриминация мала, то выполненный анализ достиг своей цели.

Кроме задачи "объяснения", другой главной целью применения дискриминантного анализа является задача "прогнозирования". Как только модель установлена и получены дискриминирующие функции, возникает вопрос о том, как хорошо они могут предсказывать, к какой совокупности принадлежит конкретное измерение? Обычно классификация объектов осуществляется с использованием одного из следующих методов:

На точность классификации может сильно влиять способ спецификации априорных вероятностей наблюдений в различных совокупностях. Если неодинаковая заселенность классов в первоначальной выборке является отражением истинного распределения в популяции, то необходимо положить априорные вероятности пропорциональными объемам совокупностей в выборке. Если это только случайный результат процедуры формирования обучающей выборки, то априорные вероятности принимаются одинаковыми для каждой группы.

Результаты достоверности оценки классов анализируются с использованием таблицы сопряженности “Факт – Прогноз”. С помощью этой таблицы можно оценить вероятность ошибочной классификации каждого класса, которая является смещенной.

Результаты расчетов

В качестве примеров используем те же выборки, что были получены в разделе 8.2 при рассмотрении логистической регрессии.

В первом примере разделим 520 гидробиологических измерений на 2 группы: 181 пробы на “чистых” станциях наблюдения с классом качества вод 3 и менее, и 339 проб на станциях, соответствующих классу 4 и выше. В качестве варьируемых переменных примем общее число видов X1 = S и показатели обилия отдельных семейств зообентоса (для хирономид – подсемейств и триб); Xj = ln((NsjBsj)0.5), Nsj и Bsj – суммарные по видам численность и биомасса j-й таксономической группы в пробе, j = 2, 3,…51.

Используем прямую пошаговую процедуру нахождения информативных дискриминантных функций при пороге F-включения, равном 3, в результате которой было отберем 13 дискриминантных переменных из 50 при статистически незначимой остаточной дискриминации. Как статистике Уилкса (U = 0.68), так и обобщенному расстоянию Махалонобиса между группами (D2 = 2.07) соответствует один и тот же аппроксимированный критерий Фишера F(13,506) = 18.3, что позволяет отвергнуть нулевую гипотезу о равенстве групповых средних на высоком уровне значимости.

По знаку и абсолютной величине рассчитанных коэффициентов дискриминантных функций, представленных в табл. 8.7, можно качественно оценить удельную индикаторную ценность отдельных семейств зообентоса для прогнозирования степени загрязнения вод. Естественно, например, предположить, что обилие групп Ephemeroptera, Amphipoda или Ptychopteridae и многих других тем выше, чем чище водоем, в то время как обратная зависимость имеется для Odonata и Dermaptera. Однако прямое использование коэффициентов уравнений в роли индексов “чисто/грязно” не вполне правомочно, поскольку механизм их формирования учитывает целый ряд дополнительных статистических аспектов, таких как взаимная коррелированность признаков и проч.

Таблица 8.7

Коэффициенты дискриминантных функций, оценивающих категорию качества вод по обилию таксономических групп зообентоса
(р – априорная вероятность класса на обучающей выборке, R2 – коэффициент множественной корреляции)

Таксономические группы зообентоса

Класс “Чисто” p = 0.348

Класс “Грязно” p = 0.652

F-критерий исключения

R2

Свободный член

-4.51

-2.68

Ephemeroptera

0.312

-0.050

35.4

0.315

Limoniidae

0.424

0.235

6.0

0.102

Amphipoda

0.380

-0.154

12.8

0.031

Oligochaeta

0.387

0.545

14.9

0.165

Число видов в пробе S

0.199

0.160

2.3

0.532

Rhagionidae

0.311

0.060

3.2

0.052

Simuliidae

0.245

0.055

3.9

0.122

Dreissenidae

0.230

0.077

5.8

0.069

Ptychopteridae

1.363

-0.242

4.6

0.013

Триба Tanytarsini

0.167

0.049

4.1

0.322

Dermaptera

-0.904

0.069

4.3

0.037

Coleoptera

0.034

-0.157

4.3

0.145

Odonata

-0.287

-0.113

3.4

0.109

Использование полученных дискриминантных функций для прогноза категории водоема по шкале (“чисто” / “грязно”) на примерах обучающей выборки дал более скромные результаты, чем в случае логистической регрессии: всего было правильно опознано 382 измерения или 78.3% от общего числа. Особенно неудачный прогноз имел место для категории “чисто”, где было правильно идентифицировано только 103 пробы (56.9%).

Во втором примере выборку из тех же 520 измерений разобьем на 5 групп в соответствии со значением класса качества водоемов, откуда бралась проба. В качестве девяти варьируемых переменных будем использовать различные обобщенные гидробиологические показатели и традиционные “интегральные” индексы. В ходе пошаговой процедуры дискриминантного анализа два признака, связанные с численностью, были исключены как неинформативные, в результате чего получены уравнения, представленные в табл. 8.8.

Таблица 8.8

Коэффициенты дискриминантных функций, оценивающих класс качества вод по обобщенным показателям зообентоса (отсутствуют коэффициенты для переменных, признанных неинформативными)

Наименования индексов и обобщенных показателей

Классы качества вод

F-критерий исключения

2

3

4

5

6

Константа уравнения

-14.61

-14.10

-12.49

-13.89

-10.90

Биотический индекс Вудивисса

1.78

1.46

0.99

0.78

0.66

23.33

Олигохетный индекс Пареле

3.88

4.04

5.07

7.38

6.20

11.58

Общая биомасса (ln B) мг/м2

1.29

1.55

1.47

1.55

1.40

3.27

Индекс Шеннона

2.44

2.61

3.15

3.28

2.66

3.54

Хирономидный индекс Балушкиной

0.04

0.22

0.22

0.29

0.21

3.58

Доля хищных видов (по биомассе)

0.07

0.06

0.07

0.06

0.05

3.27

Число видов в пробе

-0.27

-0.33

-0.35

-0.45

-0.40

3.26

Общая численность (ln N), экз./м2

-

-

-

-

-

1.48

Доля хищных видов (по численности)

-

-

-

-

-

0.99

Основываясь на статистике Уилкса U = 0.51, значению которой соответствуют аппроксимация критерия Фишера F(28, 1836) = 13.4 и вероятность p » 0.0, гипотеза о равенстве групповых средних для различных классов качества вод в целом должна быть решительно отвергнута.

Детальный анализ матрицы обобщенных расстояний Махалонобиса для всех возможных пар классов, представленный в табл. 8.9, также свидетельствует о значимых статистических различиях между группами измерений (в наименьшей мере это относится для классов качества 5 и 6, значение вероятности р = 0.0034 для которых значительно меньше критического).

Таблица 8.9

Обобщенные расстояния Махалонобиса D2 (выше главной диагонали) между центроидами измерений на станциях с различным классом качества воды и значения F-статистики Фишера для оценки различий между классами (ниже главной диагонали)

Классы качества вод

2

3

4

5

6

Классы качества вод

2

0

1.39

2.84

7.19

7.09

3

5.61

0

0.81

3.29

3.81

4

12.63

6.69

0

1.50

1.91

5

25.49

18.45

9.66

0

0.68

6

22.23

17.74

9.96

2.72

0

Не углубляясь в технику расчетов, которые разумно поручить компьютеру, рассмотрим, как с использованием дискриминантного анализа осуществляется классификация конкретных измерений. Пусть для двух гидробиологических проб, взятых на р. Чапаевка в русловой части станции 12, отнесенной по гидрохимическим показателям к классу качества 5, рассчитаны индексы и обобщенные показатели, перечисленные в табл. 8.8. Используя коэффициенты дискриминантных уравнений, вычислим для каждого из этих примеров значения апостериорных вероятностей и расстояний Махалонобиса относительно каждого класса качества вод (см. табл. 8.10). Для измерения от 13 июня 1990 г. наименьшее расстояние Махалонобиса соответствует 5 классу качества вод, в то время, как по максимуму оценок апостериорных вероятностей эта проба соответствует классу качества 4. В то же время, обе статистики, вычисленные по результатам наблюдения от 27 июля 1990 г., относят эту станцию к 5 классу.

Таблица 8.10

Расстояния Махалонобиса и апостериорные вероятности для оценки класса качества вод двух измерений, сделанных на ст.12 р. Чапаевка

Дата измерения

Статистика для классификации

Классы качества вод

2

3

4

5

6

13.06.90

Расстояние Махалонобиса

9.499

5.177

2.408

2.391

3.149

Апостериорная вероятность

0.004

0.091

0.529

0.248

0.127

27.07.90

Расстояние Махалонобиса

11.164

6.929

4.502

1.845

2.235

Апостериорная вероятность

0.003

0.050

0.247

0.434

0.267

Результаты достоверности оценки классов качества для всех примеров обучающей выборки представим в виде таблицы сопряженности “Факт – Прогноз” (табл. 8.11), где по главной диагонали проставлены частоты правильной оценки групп измерений, а в остальных клетках – имеющиеся ошибки прогноза.

Остается обратить внимание читателя на то, что общая эффективность прогнозирования класса качества вод с использованием дискриминантного анализа оказалась существенно выше, чем по модели упорядоченного пробита.

Таблица 8.11

Результаты прогнозирования класса качества вод с использованием дискриминантного анализа

Классы качества вод

Фактические

Итого прогноз

Правильный прогноз, %

Ошибка на два и более класса, %

2

3

4

5

6

Прогнозируемые

2

26

19

6

0

0

51

51.0

0

3

12

50

33

8

1

104

48.1

8.6

4

13

46

129

31

28

247

52.2

16.5

5

0

11

11

39

15

76

51.3

14.4

6

2

2

8

9

21

42

50.0

28.5

Итого факт

53

128

187

87

65

520

51.1

14.0

 

Дальше К следующему разделу Назад К предыдующему разделу Начало К началу разделу Конец К концу разделу Список К оглавлению