Дальше К следующему разделу Назад К предыдующему разделу Начало К началу разделу Конец К концу разделу Список К оглавлению

8.5. Задача о двух классах и разделяющей гиперплоскости : метод “обобщенного портрета”

Формулировка задачи

Пусть зависимая переменная Y, отражающая качество вод, принимает одно из двух значений. Класс 1 может, например, трактоваться как "Чисто", "Норма" или "Относительно удовлетворительная ситуация", а 0 – как "Грязно", "Патология", "Чрезвычайная экологическая ситуация" и т.п. В соответствии с этой классификацией, таблица гидробиологических наблюдений, соответствующая обучающей выборке, разделяется на два конечных подмножества векторов: и . Элементы xi , i = 1, 2,…, m, векторов Х и соответствуют варьируемым переменным, в состав которых могут входить значения обилия i-го вида в пробе, а также всевозможные обобщенные индексы и гидробиологические показатели.

Необходимо найти такое уравнение оптимальной гиперплоскости в m-мерном пространстве признаков

,(8.49)

которая разделяет точки множеств Х и и, в то же время, наиболее удалена от выделяемых областей – выпуклых оболочек каждого из этих множеств. Геометрическая интерпретация задачи разделения двух подмножеств точек плоскостью (точнее, прямой линией) для случая двух переменных представлена на рис. 8.6.

Рекомендуемая литература: [Вапник, Червоненкис, 1974; Алгоритмы и программы.., 1984].

Математический лист

Пусть в некотором пространстве существует две (или несколько) областей, не имеющих общих точек, и что измерения – точки из этих областей. Каждой такой области можно приписать наименование, т. е. дать название, соответствующее образу. Сами эти области заранее не определены, т. е. нет каких-либо сведений о расположении их границ или правил определения принадлежности точки к той или иной области.

Процесс обучения распознаванию образов состоит в том, что предъявляются точки, случайно выбранные из этих областей. Необходимо построить поверхность, которая разделяла бы не только показанные в процессе обучения точки, но и все остальные точки, принадлежащие этим областям. Иначе говоря, цель обучения состоит в построении таких функций от векторов-измерений, которые были бы, например, положительны на всех точках одного и отрицательны на всех точках другого образа. Если предъявляемые измерения принадлежат не двум, а большему числу образов, то задача состоит в построении поверхностей, разделяющей все области друг от друга.

Рис. 8.6. Геометрическая интерпретация метода обобщенного портрета

Класс R-моделей распознавания образов, использующих принцип разделения, основан на гипотезе полимодальности плотности распределения объектов в исходном признаковом пространстве. Иными словами, объекты группируются в "сгустки" точек, которые могут быть разделены друг от друга некоторой гиперповерхностью и при этом достигается приемлемая ошибка классификации.

Конкретные алгоритмы этого типа построены по единой схеме: из класса решающих правил подходящей емкости выбирается правило, минимизирующее количество неправильных опознаний на обучающей выборке. Во многих случаях класс решающих функций задается параметрически, т.е. считается, что вид функции известен с точностью до значения конечного числа параметров (коэффициентов модели). Самыми распространенными являются представления разделяющих функций в виде линейных уравнений, обобщенных нелинейных полиномов, эволюционных моделей и моделей метода группового учета аргументов (МГУА). Близки этой концепции и П-модели, реализующие метод потенциальных функций, основанный на используемой в физике идее потенциала – всюду положительной и монотонно убывающей функции расстояния.

При использовании методов, основанных на предположениях о виде решающих функций, исследователь, прежде всего, обращается к линейным моделям. Это обусловлено высокой размерностью пространства признаков, характерной для реальных задач, вследствие чего при повышении степени полиноминальной решающей функции имеет место огромный рост числа ее членов при проблематичном сопутствующем повышении качества распознавания. Как отмечалось ранее, свойства линейных диагностических моделей, в которых изучаемый показатель представлен взвешенной суммой исходных признаков, хорошо изучены. Результаты этих моделей при соответствующем нормировании легко интерпретируются как расстояния от исследуемых объектов до некоторой гиперплоскости в пространстве признаков или, что эквивалентно, как проекции объектов на некоторую прямую линию в данном пространстве.

Рассмотрим метод нахождения разделяющей гиперплоскости, т.е. функции из класса линейных по параметру решающих правил. Наиболее конструктивным алгоритмом в этой области является метод обобщенного портрета, строгое математическое обоснование которого выполнено В.Н. Вапником и А.Я. Червоненкисом [1974]. Построение разделяющей поверхности идет здесь следующим образом. Ищется такое направление j 0 в полном пространстве признаков, чтобы проекции выпуклых оболочек точек обучающей выборки первого и второго класса на это направление были максимально удалены друг от друга:

(8.50)

Как показано на рис. 8.6, оптимальная разделяющая плоскость проводится перпендикулярно выбранному направлению j 0 через середину отрезка, соединяющего проекции разделяемых областей:

.(8.51)

Эта разделяющая гиперплоскость отделяет точки множества Х, для которых xj 0 > c0, от точек множества , для которых xj 0 < c0, а ее направляющий вектор j 0 и называется, собственно, “обобщенным портретом”.

Основным достоинством методов, основанных на предположениях о классе решающих функций, является ясность математической постановки задачи распознавания, как задачи поиска экстремума. В частности, нахождение оптимальной разделяющей гиперплоскости по методу обобщенного портрета представляет собой задачу квадратичного программирования, решение которой опирается на теорему Куна-Таккера. При этом ищется точка a 0, соответствующая положительному максимуму квадратичной формы

, где .(8.52)

Поиск экстремума достигается с помощью достаточно хорошо изученных специальных алгоритмов перцептронного типа (модификация метода Гаусса-Зайделя) или стандартных градиентных методов, к которым относится, в частности, метод сопряженных градиентов [Алгоритмы и программы.., 1984].

Особая ситуация возникает, когда безошибочное разделение векторов невозможно. Это бывает, если классы трангрессируют, а проекции их выпуклых оболочек перекрываются, либо "зазор" между классами r min меньше некоторого заданного значения r 0. В этом случае из обучающей выборки исключается вектор, наиболее препятствующий успешному разделению. Затем, если разделение все еще невозможно, из оставшегося множества удаляется следующий малоинформативный элемент. Поиск продолжается до тех пор, пока либо задача не будет решена, либо число исключенных точек не превзойдет заданную долю общего числа векторов в обучающей выборке. В случае успешного нахождения обобщенного портрета, оставшаяся совокупность векторов называется информативной.

Важнейшей проблемой является проверка адекватности моделей прогнозирования, т.е. оценка достоверности полученных решающих правил. Эффективность работы различных алгоритмов распознавания образов оценивается с использованием критериев качества, которыми, в общем случае, являются либо собственно вероятности ошибочной классификации, либо связанные с ними некоторые функции потерь. При этом различают условную вероятность ошибочной классификации, ожидаемую ошибку алгоритма классификации на выборке заданного объема и асимптотическую ожидаемую ошибку классификации. Для оценки выбранного показателя качества того или иного алгоритма применяется три основных экспериментальных способа:

Первый способ соответствует критерию внутренней непротиворечивости модели, выраженному в частотах ошибок первого и второго рода на обучающей выборке (или процентах несовпадений в классификациях "учителя" и машины). Способ дает завышенную оценку качества распознавания по сравнению с той же оценкой на независимых от обучения данных. Второй способ оценивает адекватность на внешнем дополнении (т.е. на экзаменуемых примерах, не участвовавших в построении самой модели). Метод является самым простым и убедительным, и им широко пользуются, если экспериментальных данных достаточно.

Оценка скользящего контроля формируется при работе алгоритма, который состоит в том, что из обучающей выборки поочередно удаляются описания одного объекта, на оставшемся материале строится решающее правило и по нему классифицируется исключенный объект. Такая процедура повторяется (n - 1) раз. Доля правильных опознаний при скользящем контроле является несмещенной оценкой вероятности ошибки на всей генеральной совокупности и, следовательно, наиболее репрезентативной оценкой качества модели. Однако этот метод является и самым трудоемким, так как требует многократного построения правила распознавания.

Основной задачей построения моделей является структурная идентификация решающего правила, связанная с выбором оптимального признакового пространства, дающего наилучшее качество прогнозирования. Кроме чисто технических проблем, связанных с математической обработкой плохо обусловленных матриц большой размерности, методологически верно максимально учитывать известное предостережение Уильяма Оккама: “частностей должно быть не больше, чем их необходимо”. Действительно, сложная модель прогнозирования, основанная на бессистемном привлечении множества малоинформативных переменных, далеко не всегда оказывается оптимальной: добившись высокого качества предсказания на обучающей выборке, вероятность ошибки классификации векторов генеральной совокупности для такой модели часто возрастает.

Одним из путей борьбы с "проклятием размерности" является использование специальных пошаговых алгоритмов (см. также разделы 8.1 и 8.3), предназначенных для формального выделения в исходном пространстве переменных такого оптимального подпространства, в котором построенная гиперплоскость доставляет минимум критерию Р, учитывающему как вероятность ошибок классификации, так и число использованных признаков. При прямой пошаговой процедуре фиксированное подпространство переменных наращивается добавлением на каждом шаге одного признака, в наибольшей степени улучшающего критерий Р. Обратная пошаговая процедура заключается в исключении признаков до тех пор, пока критерий Р не достигнет минимума. Специальный метод последовательных включений с исключениями представляет собой комбинацию прямой и обратной пошаговых процедур.

В отличие от параметрических методов распознавания, успешность применения метода обобщенного портрета мало зависит от рассогласования теоретических представлений о законах распределения объектов в пространстве признаков с эмпирической реальностью. Метод позволяет использовать любой способ представления информации – непрерывный, когда координаты вектора х могут принимать любые значения, и дискретный, которым удобно кодировать признаки, измеренные в порядковой шкале. Использованный нами программный комплекс FOP [Алгоритмы и программы.., 1984] предполагает предварительное преобразование всего исходного пространства признаков в бинарную форму, в результате чего область изменения каждого признака xi разбивается на k интервалов с произвольным числом градаций (9 ³ k ³ 2). Далее признаку xi ставится в соответствие k бинарных признаков zij по традиционному правилу:

Переход в пространство бинарных признаков реализует целый ряд преимуществ:

Тогда уравнение разделяющей гиперплоскости в пространстве бинарных признаков имеет вид

, (8.53)

где m – число исходных признаков, l ij – настраиваемые коэффициенты, связанные кусочно-постоянными функциями с элементами вектора обобщенного портрета j , b – свободный член уравнения. С использованием этого уравнения решающее правило заключается в расчете расстояния h в многомерном пространстве от тестируемого объекта zэ до разделяющей гиперплоскости и классификации наблюдения по следующей простой процедуре: если , то экзаменуемый вектор zэ относится к классу 1, в противном случае – к классу 0.

Следует отметить, что алгоритм обобщенного портрета применим и для распознавания объектов, относящихся более чем к двум классам, путем использования одного из методов: последовательной дихотомии или "один против всех". Например, можно сформировать обучающую выборку с априорными оценками трех классов: 2 – "стабильный", 1 – "кризисный" и 0 – "экологическое бедствие". Применима следующая стратегия обработки данных:

В работе Б.А.Курляндского с соавторами [1988] описан пример прогнозирования количественных значений гигиенических нормативов и ПДК методом построения обобщенного портрета.

Линейные модели распознавания адекватны только простым геометрическим конфигурациям областей пространства признаков, в которые отображаются объекты разных классов, выделенных "учителем". При более сложных распределениях, порождающих геометрическую неоднородность объектов, эти модели принципиально не могут отражать многие особенности структуры экспериментальных данных, которые способны нести ценную диагностическую информацию.

С помощью методов, основанных на дополнительных предположениях о классе решающих функций (эволюционных, МГУА, нейросетевых и т.д. – см. главу 9), можно строить диагностические модели высокой сложности и получать практически приемлемые результаты. В то же время, достижению практических целей в этом случае не всегда сопутствует извлечение новых знаний о природе распознаваемых объектов. Возможность извлечения этих знаний, в частности, об экологических механизмах взаимодействия видов (признаков), принципиально ограничена емкостью класса решающих функций. Поэтому максимально, что можно сказать после построения той или иной диагностической модели высокой сложности – это перечислить комбинации признаков и сами признаки, вошедшие в результирующую модель. Но содержательный смысл явлений, отражающих внутреннюю природу и структуру исследуемых объектов, в рамках нелинейного подхода часто остается нераскрытым. Более простые линейные модели, используемые для целей "объяснения", имеют в этом смысле несомненные преимущества.

Результаты расчетов

В отличие от примеров предыдущих разделов, уравнения обобщенного портрета рассчитаем на основе опорного множества специально подобранных примеров с заранее известным откликом. Для формирования обучающей выборки из общего массива наблюдений малых рек Самарской области выделим: зону (т.е. область образа) с чрезвычайной экологической ситуацией (43 станции класса 0) и зону относительно экологической стабильности (43 станции класса 1).

При отборе и классификации точек наблюдения будем учитывать весь комплекс абиотических показателей, территориально-статистические и экспертные оценки степени антропогенной нагрузки, а также степень изученности и непротиворечивости данных. Всем измерениям, включаемым в обучающую выборку, присвоим признак класса 0 с чрезвычайной экологической ситуацией (ЧЭС) или 1 относительной экологической стабильности (ОУС) в соответствии с предварительной классификацией станций. Гидробиологические пробы на остальных 160 станциях наблюдения будем использовать лишь для экзамена.

Сформированная таким образом компактная обучающая выборка содержит n = 160 векторов х с исходными данными, из которых 70 было отнесено к классу ОУС и 90 к классу ЧЭС. На примере этой обучающей выборки выполним три варианта расчетов.

Вариант 1. Рассчитаем уравнение оптимальной разделяющей гиперплоскости с использованием следующих 5 основных индексов и обобщенных количественных показателей зообентоса: числа видов S в каждой пробе, суммарной численности Ns (экз./м2) и биомассы Вs (г/м2 ), информационного индекса Шеннона Н и биотического индекса Вудивисса V. Область значений каждого из этих признаков разобьем на диапазоны (градации), причем границы диапазонов выберем оптимальным образом в соответствии с критерием равной заселенности диапазонов (см. раздел 6.3). Получим уравнение разделяющей гиперплоскости со свободным членом b = 2.6 и коэффициентами l j которые представлены в таблице 8.17.

Таблица 8.17

Коэффициенты l j модели распознавания состояния экосистемы по набору индексов и обобщенных количественных показателей зообентоса

№№ пп

Наименование показателей

Градации разбиения показателей j

1

2

3

4

1

Количество

видов S

Диапазон

1 - 3

4-8

9-16

17-41

l j

-69.53

-77.66

23.97

123.22

2

Численность N

Диапазон

1 - 400

401-1300

1301–3700

>3700

l j

00.00

21.73

42.19

-63.92

3

Биомасса B

Диапазон

До 0.35

0.35-2.5

2.5–10

>10

l j

15.06

6.68

-16.35

-5.38

4

Индекс

Шеннона H

Диапазон

До 1.36

1.36-1.9

1.9-2.9

2.9-4.4

l j

-72.35

17.26

26.05

29.03

5

Индекс

Вудивисса V

Диапазон

0 - 1.2

равно 2

2.3-6

6.7-9

l j

-22.15

-29.56

-30.62

82.33

Приведем примеры использования решающего правила.

На ст. 3 р. Байтуган в пробе от 17 июля 1991 г. было определено 20 видов бентоса (N = 3360 экз./м2, B = 3.3 г/м2, H = 3.29, V = 8). Используя коэффициенты табл. 8.17, имеем:

h = 2.6 + 123.22 + 42.19 - 16.35 + 29.03 + 82.33 = 263, т.е. > 0 ,

что позволяет уверенно классифицировать экосистему этого участка реки как экологически стабильную (класс ОУС). Аналогично, на ст. 8 (в пределах с. Байтуган) той же реки в составе бентофауны зарегистрировано 6 видов (N = 490 экз./м2, B = 1.06 г/м2, H = 1.71, V = 2), что соответствует оценке

h = 2.6 - 77.66 + 21.73 + 6.68 + 17.26 - 29.56 = -58.9, т.е. < 0 ,

дающей основание отнести станцию к зоне экологического кризиса (класс ЧЭС).

Сравнительный анализ коэффициентов уравнения разделяющей гиперплоскости по их абсолютной величине дает возможность утверждать, что основными показателями, определяющими качество экосистем, остается видовое разнообразие, выраженное через обилие (число видов S) и равномерность распределения (индекс H). В то же время, значения биомассы В вносят несущественный вклад в оценку качества экосистемы, а тенденция монотонного возрастания весовых коэффициентов l j по мере увеличения численности организмов при N > 3700 резко меняет свой знак на противоположный (т.е. в сторону экокризисных явлений), что является признаком серьезных структурных нарушений в водоеме. Имеет свои гносеологические корни и феномен явной нелинейности вклада обоих индексов – Шеннона H (значения до 1.36) и Вудивисса V (значения свыше 6).

Вариант № 2. Альтернативной моделью распознавания классов ОУС и ЧЭС является уравнение гиперплоскости, основанное на видовом составе зообентоса. При ее расчете используем следующие необязательные допущения:

В ходе моделирования используем метод последовательных включений с исключениями, и в результате работы пошаговых процедур из всего списка хирономид отберем 68 видов, обладающих наилучшей классификационной значимостью (предполагается, что остальные 98 видов либо в равной мере присутствуют в водоемах обеих категорий, либо низкая частота их встречаемости не дает оснований для включения в решающее правило). В табл. 8.18 приведены верхняя и нижняя часть списка видов, отобранных в результате алгоритма селекции и отсортированных по убыванию значений коэффициентов l , а позиции 20-49 с l , близкими к 0, опущены.

Таблица 8.18

Коэффициенты уравнения разделяющей гиперплоскости для распознавания состояния экосистемы по видовому составу хирономид

NN пп

Наименования видов, характерных для класса 1 ("чисто")

Встреча-емость в выборке

Коэффици-енты l модели

NN

пп

Наименования видов, характерных для класса 0 ("грязно")

Встреча-емость в выборке

Коэффици-енты l модели

1

Microtendipes pedellus (De Geer)

10

129.98

50

Procladius sp.

49

-5.36

2

Cladotanytarsus mancus (Walk.)

26

114.88

51

Rheotanytarsus curtistylus (Goetgh.)

3

-9.16

3

Ablabesmyia monilis (L.)

8

105.06

52

Polypedilum scalaenum Schrank

13

-16.56

4

Paracladopelma camptolabis K.

10

99.7

53

Polypedilum sp.

4

-22.14

5

Cricotopus bicinctus (Mg.)

35

99.32

54

Chironomus plumosus (L.).

1

-27.8

6

Brillia gr. modesta (Mg.)

5

99.18

55

Chironomus muratensis Ryser.

1

-31.9

7

Corynoneura sp.

4

97.76

56

Parachironomus varus Goetgh.

3

-33.74

8

Clinotanypus nervosus (Mg.)

6

93.06

57

Dicrotendipes notatus (Mg.)

5

-33.74

9

Psectrocladius gr. sordidellus (Zett.)

3

74.66

58

Micropsectra gr. praecox (Mg.)

8

-36.9

10

Paratanytarsus confusus Pal.

19

71.06

59

Eukiefferiella sp.

1

-37.14

11

Cricotopus sp.

2

65.42

60

Polypedilum nubeculosum (Mg.)

3

-38.3

12

Prodiamesa olivacea (Mg.)

2

58.76

61

Cladopelma gr. lateralis (G.)

5

-38.3

13

Teleopelopia sp.

5

51.58

62

Micropsectra sp.

1

-38.3

14

Glyptotendipes gripekoveni K.

5

47.18

63

Stictochironomus crassiforceps (K.)

5

-40.22

15

Harnischia fuscimana K.

8

47.18

64

Tanytarsus pallidicornis Walk.

6

-45.54

16

Monodiamesa bathyphila K.

6

43.78

65

Eukiefferiella similis Goetgh.

1

-65.7

17

Tanypus punctipennis (Mg.)

8

42.64

66

Glyptotendipes glaucus ( Mg.)

3

-95.44

18

Parametriocnemus sp.

4

39.52

67

Cryptochironomus gr. defectus (K.)

29

-106.42

19

Chironomus obtusidens G.

7

38.3

68

Procladius ferrugineus (K.) choreus

1

-133.82

Численные значения l , по нашему мнению, имеют вполне обоснованный смысл индикаторных индексов "экологического благополучия" (при l >0) или "экологического кризиса" (при l <0). Например, наличие в составе донных сообществ видов Cladotanytarsus mancus (l = +114), Cricotopus bicinctus (l = +99) и других видов левой части табл. 8.18 свидетельствует о значительной вероятности отнесения водоема к "чистому" классу ОУС, а вида Procladius choreus (l = -133.8) и других, представленных в табл. 8.18 справа, к "грязному" классу ЧЭС.

С использованием уравнения обобщенного портрета для любого тестируемого наблюдения легко рассчитать его расстояние h от разделяющей гиперплоскости. Достаточно просто сложить рассчитанные коэффициенты для тех видов, которые встретились в пробе и добавить к ним свободный член уравнения. Если эта мера больше нуля, то это – класс ОУС, при отрицательной величине – класс ЧЭС (см. табл. 8.19.)

Таблица 8.19

Пример использования модели распознавания по видовому составу хирономид для двух произвольных станций наблюдения

 

№№ пп

Наименование видов

Коэффициенты обобщенного портрета l ,

Ст.6, р. Сок (15.07.1998)

Ст.5, р. Черновка (16.07.1987)

1

Cladotanytarsus mancus

114.88

114.88

2

Harnischia fuscimana

47.18

Отс.

3

Tanypus punctipennis

42.64

Отс.

4

Chironomus obtusidens

38.3

Отс.

5

Microchironomus tener

-2

Отс.

6

Prodiamesa olivacea

-5.36

-5.36

7

Polypedilum scalaenum

-16.56

Отс.

8

Micropsectra sp.

Отс.

-38.3

9

Polypedilum nubeculosum

Отс.

-38.3

10

Cladopelma gr. lateralis

Отс.

-38.3

11

Cryptochironomus gr.defectus

-106.42

Отс.

S S l ij xiэ

112.66

-5.38

h = S S l ij xiэ - b (b = 47.04)

65.62

-52.42

Результат классификации

Относительно удовлетворительная ситуация (ОУС)

Чрезвычайная экологическая ситуация (ЧЭС)

Вариант № 3. Комбинированную модель, основанную на полном признаковом пространстве, получим с использованием всего набора переменных: из 5 индексов и обобщенных показателей обилия зообентоса и 166 признаков видовой структуры.

Сравнительная оценка достоверности полученных моделей-претендентов, представленная в табл. 8.20, осуществлялась по двум критериям:

Таблица 8.20

Сравнительный анализ адекватности полученных моделей

По внутреннему критерию вне конкуренции оказались модели 2 и 3, включающие видовой состав и обеспечивающие почти 100% разделение гиперплоскостью классы "ЧЭС" и "ОУС". Однако экстраполяционные свойства этих моделей, оцененные по результатам скользящего контроля, несколько уступили по надежности модели, основанной на использовании обобщенных структурных показателей. Этот результат вполне соответствует сложившимся представлениям о недостаточной устойчивости моделей, построенных на основе обширных, разреженных матриц.

Метод обобщенного портрета дает надежность правильного распознавания экологической ситуации в пределах 85-90%. Ошибки классификации объясняются в основном вариабельностью проб под влиянием сезонной или многолетней динамики, а также определенной неоднозначностью критериев исходного деления на классы.

Таким образом, метод обобщенного портрета дает нам возможность:

Действительно, для любого примера, к которому применимо найденное решающее правило, можно рассчитать его расстояние h от разделяющей плоскости (см. рис. 8.7), численно равное правой части уравнения (8.53) для решающего правила. Чем это расстояние больше, тем больше благополучие экосистемы (при h > 0) или глубже ее кризисность (при h < 0), что дает нам основания интерпретировать h как некоторую меру на шкале нормирования качества вод или очередной индекс экологического благополучия [Шитиков с соавт., 2001]. Нулевому значению h соответствует пограничное состояние, которое можно классифицировать как "Напряженное или критическое". Если оценить это расстояние h в многомерном пространстве видов от найденной гиперплоскости до каждой пробы, взятой на 23 станциях р. Чапаевка от истока до устья (см. рис. 8.7), получим сложную пространственную динамику благополучия экосистемы (с точки зрения развития зообентоса) с выделением трех зон:

 

Рис. 8.7. Схема расположения станций наблюдений на р. Чапаевка и диаграмма распределения индекса экологического благополучия h по руслу реки (на диаграмме по оси абсцисс – станции р. Чапаевка, по оси ординат – значения h )
Показана аппроксимирующая кривая тренда, соответствующая полиному третьего порядка.

Подробно результаты исследования состояние экосистемы р. Чапаевка в условиях антропогенного воздействия изложены нами ранее [Экологическое состояние.., 1997] и полученные выводы по представленным моделям распознавания вполне соответствуют данным комплексных многолетних наблюдений. Следует также отметить, что из 23 станций на рис. 8.7, только 5 были использованы в обучающей выборке, что свидетельствует о вполне приемлемых экстраполяционных свойствах решающих правил, полученных по методу обобщенного портрета.

Как уже отмечалось выше, разделяющая гиперплоскость делит совокупность измерений только на 2 класса. Однако не представляет методологических трудностей осуществить пересчет диапазона значений расстояния h в любую из широкоупотребительных шкал оценки качества вод: 6-разрядную шкалу по Былинкиной и Драчеву, 9-разрядную систему по Оксиюк и Жукинскому или любую другую (см. раздел 3.4). Для этого достаточно составить репрезентативную выборку из примеров обучающей последовательности, каждому из которых будет поставлен в соответствие нормативный класс качества по выбранной шкале, и определить коэффициенты уравнения регрессии такого пересчета.

 

Дальше К следующему разделу Назад К предыдующему разделу Начало К началу разделу Конец К концу разделу Список К оглавлению