4. Методы классификации...

Дальше

Назад

Конец

Список

4. Методы классификации и редукции данных

Основной вопрос, которым задается пользователь информационной системы (эколог-исследователь или лицо, принимающее решение в области планирования природоохранных мероприятий), формулируется следующим образом:

"Возможно ли построить на имеющемся множестве данных сколько-либо разумную (естественную, полезную) систему отношений?"

Поэтому подавляющее большинство разрабатываемых статистических моделей, так или иначе связано с классификацией. У истоков любой модели всегда лежит замысел человека научить компьютер "отличать одно от другого", т.е. по значению прогнозируемого показателя-отклика явно или неявно оценить некоторую категориальность изучаемого объекта, процесса или явления. Например, хочется:
а) определить степень ("класс") техногенного преобразования участков территории;
б) узнать, является ли скорость депонирования фосфора большой или маленькой;
в) предположить, что в ходе эволюции плотность популяции будет возрастать или убывать;
г) оценить, насколько опасным для здоровья является действие того или иного химического вещества,
т.е. в конечном итоге что-то расклассифицировать. Получив результаты моделирования, исследователь чаще всего начинает выполнять диагностику, т.е. сравнивать между собой изучаемые объекты, процессы или явления по выделенным отличительным признакам классов (или “дискриминирующим правилам”). Здесь было бы кстати упомянуть, что само классифицирование является своеобразной “сверткой” исходных информационных таблиц, поскольку число выделяемых классов всегда меньше, чем уникальных объектов, т.е. в итоге получается по возможности лаконичное, наглядное и полезное представление данных в пространстве существенно меньшей размерности. В то же время, математические методы редукции пространства признаков сами являются одним из эффективных средств классифицирования.

Кластерный анализ

Задача кластерного анализа состоит в выяснении по эмпирическим данным, каким образом элементы “группируются” или распадаются на изолированные “скопления”, “кластеры” (cluster (англ.) — гроздь, скопление), причем никаких априорных предположений о классовой структуре, как правило, не делается. Иными словами, задача — выявление естественного разбиения на классы, свободного от субъективизма исследователя, а цель—выделение групп однородных объектов, сходных между собой, при резком отличии этих групп друг от друга.

Абсолютное большинство методов кластеризации [1-4] основывается на анализе квадратной и симметричной относительно главной диагонали матрицы D коэффициентов сходства (расстояния, сопряженности, корреляции и т.д.) между объектами исходной матрицы наблюдений:

В ЭИС REGION реализована возможность расчета матрицы D по заданному набору показателей с использованием различных формул для меры дистанции, выбираемых пользователем. Наиболее общей формулой для подсчета расстояния в m-мерном признаковом пространстве между объектами X₁ и X₂является мера Минковского [3]:

где r и p – параметры, определяемые исследователем, с помощью которых можно прогрессивно увеличить или уменьшить вес, относящийся к переменной i, по которой соответствующие объекты наиболее отличаются. Параметр p ответственен за постепенное взвешивание разностей по отдельным координатам, параметр r определяет прогрессивное взвешивание больших расстояний между объектами.

Мера расстояния по Евклиду получается, если метрике Минковского положить r = p = 2, и является, по-видимому, наиболее общим типом расстояния, знакомым всем по школьной теореме Пифагора, – геометрическим расстоянием в многомерном пространстве, которое вычисляется следующим образом:

Заметим, что евклидово расстояние может быть вычислено как по исходным, так и по стандартизованным данным (например, нормированным на интервале от 0 до 1).

При r = p = 1 метрика Минковского дает "расстояние городских кварталов" (манхэттенское расстояние), которое является просто суммой разностей по координатам:

В большинстве случаев эта мера расстояния приводит к таким же результатам, что и обычное расстояние Евклида. Однако отметим, что для нее влияние отдельных больших разностей (выбросов) уменьшается, так как они не возводятся в квадрат.

При r = p ® ¥ имеем метрику доминирования (она же, супремум-норма или расстояние Чебышева), которая вычисляется по формуле:

D_T(X₁,X₂) = max | x_1i – x_2i |.

Это расстояние может оказаться полезным, когда желают определить два объекта как "различные", если они различаются по какой-либо одной лимитирующей координате (каким-либо одним измерением).

Отдавая дань устоявшимся экологическим традициям, в алгоритм формирования матрицы D был включен еще нескольких десятков выражений, часто применяемых для различных шкал (меры сходства Жаккара и Съеренсена, коэффициент корреляции Пирсона, коэффициент Гауэра и т.д.)

Программные средства ЭИС REGION обеспечивают расчет компонентов матрицы расстояний D с использованием любой из перечисленных выше концепций или формул, что не имеет принципиального значения для работы собственно алгоритмов классификации, которые реализуются с использованием внешних пакетов прикладных программ. С этой целью реализован вывод сформированной матрицы в файл формата ППП Statistica 5.5.

Собственно кластерный анализ включает в себя набор различных алгоритмов классификации, сутью которых является группировка данных в наглядные структуры (таксоны). К этому семейству алгоритмов относятся: иерархическое объединение (древовидная кластеризация), двувходовое объединение, метод К-средних и др.

Пусть исходные данные — матрица сходства ||d(x, y)|| , где d(х, у) - некоторая мера близости между каждой парой классифицируемых объектов x и y. Хорошо известно, что для любого заданного разбиения объектов на группы и любого e > 0 можно указать метрику, такую, что расстояния между объектами из одной группы будут меньше e , а между объектами из разных групп — больше 1/e . Тогда любой разумный алгоритм кластеризации даст именно заданное разбиение.

Наиболее часто применяется так называемый агломеративный иерархический алгоритм “Дендрограмма”, отдельные версии которого отличаются правилами вычисления расстояния между кластерами. Рассмотрим, к примеру, один определенный алгоритм — алгоритм средней связи. На первом шаге каждый объект рассматривается как отдельный кластер. На каждом следующем шаге объединяются две ближайших кластера. Расстояние между кластерами рассчитывается как средняя связь (отсюда и название алгоритма), т.е. как среднее арифметическое расстояний между парами объектов, один из которых входит в первый кластер, а другой — во второй. В конце концов, все объекты объединяются вместе, и результат работы алгоритма представляет собой дерево последовательных объединений (в терминах теории графов), или “Дендрограмму”. Из нее можно выделить кластеры разными способами. Один подход — исходя из заданного числа кластеров. Другой — из соображений предметной области. Третий — исходя из устойчивости (если разбиение долго не менялось при возрастании порога объединения, значит оно отражает реальность) и т.д.

К алгоритму средней связи естественно сразу добавить:

алгоритм ближайшего соседа, когда расстоянием между кластерами считается минимальное из расстояний между парами объектов, один из которых входит в первый кластер, а другой — во второй;
алгоритм дальнего соседа, когда расстоянием между кластерами считается максимальное из расстояний между парами объектов, один из которых входит в первый кластер, а другой — во второй.
невзвешенный и взвешенный центроидный метод, метод Уорда, использующий методы дисперсионного анализа для оценки расстояний между кластерами) и др.

Каждый из описанных алгоритмов (средней связи, ближайшего соседа, дальнего соседа), порождает бесконечное (континуальное) семейство алгоритмов кластер-анализа. Дело в том, что величина d^a (х, у), a > 0, также является мерой близости между х и у и порождает новый алгоритм. Если параметр a пробегает отрезок, то получается бесконечно много алгоритмов классификации. При этом каждое полученное разбиение на классы, разумеется, не является “реальными”, поскольку отражает, прежде всего, свойства алгоритма, а не исходных данных.

В качестве критерия естественности классификации можно рассматривать устойчивость относительно выбора алгоритма кластер-анализа. Проверить устойчивость можно, применив к данным несколько подходов, например, столь непохожие алгоритмы, как “ближайшего соседа” и “дальнего соседа”. Если полученные результаты содержательно близки, то классификации адекватны действительности. В противном случае следует предположить, что естественной классификации не существует и задача кластер-анализа не имеет решения.

Кроме иерархических методов классификации большое распространение получили также различные итерационные процедуры, которые пытаются найти наилучшее разбиение, ориентируясь на заданный критерий оптимизации, не строя при этом полного дерева (метод К-средних Мак-Кина, алгоритмы "Форель", "Медиана", "Краб" и т.д.). Итерационный процесс начинается, как правило, с K случайно выбранных кластеров, а затем изменяется принадлежность объектов к ним, чтобы: (1) - минимизировать изменчивость внутри кластеров, и (2) - максимизировать изменчивость между кластерами. Для этих алгоритмов важной является “проблема остановки”: завершится ли процесс улучшения положения центра кластера через конечное число шагов или же он может быть бесконечным.

В качестве вычислительного примера реализации кластерного анализа сформируем произвольную многомерную выборку из базы данных по Волжскому бассейну, составляющую некоторый набор из 15 следующих показателей, полученных по состоянию на 2000-2001 гг. и преобразованных в нормированную шкалу:

Наименование	Шифр
Валовый региональный продукт, млн.руб./чел.	E_VP
Плотность населения, тыс.чел./кв.км	E_PN
Производство электроэнергии, млн.кВт в час/чел.	E_PE
Общие затраты на природоохранные мероприятия в различных средах	E_ZP
Внесение минеральных удобрений, кг/га	C_MU
Сумма использованных пестицидов, кг/га всей посевной площади	C_SP
Сброс загрязненных сточных вод, куб.м/чел.	Z_SV
Удельный вес проб, не отвечающих гигиеническим номативам по санитарно-токсикологическим показателям	Z_KP
Суммарные выбросы в атмосферу загрязняющих веществ, т/чел.	Z_VA
Выбросы в атмосферу от автомобильного транспорта,т/чел.	Z_AA
Образование токсичных отходов, т/чел.	Z_TO
Общая заболеваемость на 1000 чел.	M_OZ
Болезни органов дыхания на 1000 чел.	M_OD
Смертность от рака кожи на 100 тыс. чел.	M_RK
Число умерших детей в возрасте до 1 года на 1000 родившихся	M_DS

На рис. 7 приведены дендрограммы иерархической классификации административных единиц Волжского бассейна с использованием различных методов и метрик для матрицы расстояний объектов по всему представленному списку показателей. На рис. 8 показано разбиение тех же точек на 5 заданных классов с использованием итеративной процедуры к-средних Мак-Кина, локализующей сгущения в многомерном пространстве из 15 признаков. Характер полученных классификаций может быть оценен как умеренно размытый. Все алгоритмы устойчиво подчеркивают абсолютную уникальность Московской обл., хотя метод дальнего соседа наделил подобной специфичностью и Башкирию. Также единодушно подчеркивается относительная близость Нижегородской и Кировской, Калужской и Пензенской, Мари Эл и Ульяновской областей.

а) Метод ближнего соседа (ось Y - евклидово расстояние)

б) Метод дальнего соседа (ось Y - евклидово расстояние)

в) Метод средней связи (ось Y - манхеттенское расстояние)

г) Метод Уорда (ось Y - манхеттенское расстояние)

Рис. 7. Дендрограммы классификации административных территорий Волжского бассейна с использованием различных методов и мер расстояний (условные обозначения областей - см. на рис. 8 )

Рис. 8. Разбиение административных территорий Волжского бассейна на классы с использованием алгоритма к-средних и расстояния по Евклиду в пространстве 15 показателей

Редукция данных методами факторного анализа и многомерного шкалирования

Для понижения размерности исходной информации (редукция данных) используются различные методы: факторный анализ и выделение главных компонент, многомерное шкалирование, нейросетевое моделирование, саморганизующиеся карты Кохонена.

Сущность факторного анализа заключается в представлении исходных показателей Х в виде некоторой совокупности латентных переменных F, называемых факторами:

, где p<<m,

При этом формируется оптимальное пространство новых ортогональных (взаимно некоррелированных) переменных без существенной потери содержательной информации, содержащейся в исходных данных. В основу анализа главных компонент положено, что факторы являются линейной комбинацией исходных показателей.

где – главные компоненты, – факторные нагрузки;

Получаемые факторы упорядочены по степени объяснения статистической вариации в пространстве показателей. Допустим, что облако объектов является выборкой из генеральной совокупности, подчиненной закону нормального распределения. Значительное (например, более 60%) число всех объектов находится в области, представляющей собой эллипсоид рассеяния, центрированный в точке сгущения с осями, определяющимися собственным значениям ковариационной матрицы. Линия, совпадающая с направлением наибольшей по длине оси эллипсоида рассеяния облака и ориентированная вдоль наибольшей дисперсии облака данных, соответствует первой главной компоненте.

Процедура выделения последующих главных компонент подобна вращению, максимизирующему в итоге остаточную дисперсию исходного пространства признаков. Вычисления основаны на определении собственных значений (λ) корреляционной матрицы (R) исходных показателей. Выбор количества факторов (главных компонент) - произвольное решение, однако существуют критерий Кайзера и критерий каменистой осыпи Кэттеля.

Наиболее практически ценной является плоскость первых двух главных компонент, дающая возможность представить многомерное облако данных в виде наглядной двумерной картинки. Такая визуализация позволяет выявить основные закономерности, присущие набору данных: его внутреннюю структура, изначальное разделение данных на классы (если таковое имеется), существование различных зависимостей между признаками и так далее.

Рассмотрим пример визуализации областей Волжского бассейна на основе метода главных компонент в пространстве 15 переменных, использованных для иллюстрации кластерного анализа. После редукции исходного пространства к 2 главным компонентам полученное разложение объясняет 39,5 % статистической вариации рассматриваемых показателей. Интерпретировать полученные факторы можно с помощью графика факторных нагрузок (рис. 9): очевидно, что первый фактор определяется, в основном, валовым региональным доходом (E_VP), плотностью населения (E_ PN) и детской смертностью (M_DS), а второй фактор - совокупностью остальных медицинско-статистических показателей, загрязнением (Z_KP) и сбросом сточных вод (Z_SV) .

Рис. 9. График отображения факторных нагрузок (обозначения показателей - по тексту)

Используя рассчитанные факторные нагрузки как коэффициенты линейного преобразования, можно сформировать редуцированную матрицу исходных данных, где столбцами являются новые факторизованные признаки. Анализ двухмерной визуализации взаимного расположения объектов на рис. 10 показывает, что в целом в результате редукции подтверждаются структурные соотношения, установленные в ходе кластерного анализа: по экстенсивным показателям (фактор 1) выделяется Московская обл., а по относительной экологической стабильности (фактор 2 - Башкирия).

Рис. 10. Отображение территориальных единиц Волжского бассейна в пространстве двух главных факторов, полученный методом главных компонент (обозначения те же, что и на рис. 8)

Моделирование данных с помощью линейных факторов является оптимальными лишь в случае близкого к нормальной выборке облака точек в пространстве исходных переменных. Поэтому особый интерес представляют принципиально нелинейные способы редукции и визуализации, учитывающие некоторые важные характеристики структуры данных и позволяющие построить эффективную технологию анализа таблиц реальных показателей.

Одним из нелинейных методов отображения векторов из многомерного пространства описания R^m в пространство R² является алгоритм многомерного шкалирования (МШ) данных [5], основанный, как и кластерный анализ, на целенаправленном преобразовании матриц сходства D, заранее сформированных на исходном множестве показателей. МШ – это не столько определенная математическая процедура, сколько способ наиболее эффективного размещения объектов, приближенно сохраняющий расстояние между ними в новом пространстве признаков, размерность которого существенно меньше исходного. Хотя методы многомерного шкалирования не связаны никакими ограничениями по закону распределения многомерных векторов, его основным недостатком является отсутствие точной математической зависимости для функции ошибки отображения данных, а именно – если совершен переход из исходного многомерного пространства R^m в R^p, то обратное отображение невозможно.

Пример визуализации областей Волжского бассейна методом многомерного шкалирования с использованием матрицы евклидовых дистанций в пространстве 15 показателей представлен на рис. 11.

Рис. 11. Отображение территориальных единиц Волжского бассейна в пространстве двух шкал, построенных методом многомерного шкалирования на основе расстояния Евклида (обозначения те же, что и на рис. 8)

Как и в случае с кластерным анализом, построение факторных моделей и реализация процедур многомерного шкалирования осуществлялась с использованием внешних модулей ППП Statistica 5.5.

Автоассоциативные нейронные сети

Как упоминалось в разделе 1, эффективным способом глубокого анализа структуры исходных данных и редукции пространства с учетом нелинейных искажений осей максимальной вариации является нелинейный вариант метода главных компонент, основанный на применении автоассоциативных сетей.

Автоассоциативная сеть – это сеть, предназначенная для воспроизведения на выходе своих же сигналов. У такой сети число выходов совпадает с числом входов, а все нейроны имеют особое свойство. Если число элементов промежуточного слоя сделать меньше числа входов/выходов, то это заставляет сеть "сжимать" информацию, представляя ее в меньшей размерности. Для синтеза искусственных нейронных сетей в качестве интеллектуального дополнения к ЭИС REGION используется нейросетевой процессор Statistica Neural NetWorks 2.0.

Для того чтобы осуществить нелинейное понижение размерности исходной матрицы показателей по областям Волжского бассейна, используемой в предыдущем примере, выберем пятислойную сеть (см. рис. 12). Ее средний (третий) слой служит для уменьшения размерности, а соседние с ним слои, отделяющие его от входного и выходного слоев, выполняют нелинейные преобразования. Выполним следующие действия:

построим автоассоциативную сеть – персептрон с пятью слоями, как показано на рис. 12, причем значения, которые подаются на вход 15 нейронов 1-го слоя соответствуют значениям на выходе нейронов 5-го слоя;
обучим автоассоциативную сеть на имеющейся выборке с использованием любого итеративного алгоритма (для определенности используем метод сопряженных градиентов);
удалим два последних слоя автоассоциативной сети и на выходе двух нейронов третьего слоя получим сеть для препроцессирования, с помощью которой генерируется версия входных данных в уменьшенной размерности: те же строки исходной таблицы, относящиеся к разным территориальным участкам, но количество варьируемых признаков сведено от 15 к 2 без существенной потери информации.

Рис. 12. Автоассоциативная сеть, использованная для понижения размерности матрицы из 15 показателей по областям Волжского бассейна

Двухмерная визуализация классифицируемых объектов в осях полученных главных факторов, представленная на рис. 13 , в целом сохраняет основную пространственную предупорядоченность территориальных единиц Волжского бассейна, полученную в ходе кластерного анализа, с помощью главных компонент и многомерного шкалирования (см. рис. 7 - 11). Некоторая имеющая место модификация пространственного расположения точек можно объяснить учетом нелинейных искажений исходного пространства переменных.

Рис. 13 . Отображение территориальных единиц Волжского бассейна в пространстве двух главных факторов, полученный методом нейросетевого моделирования (обозначения те же, что и на рис. 8)

Самоорганизующиеся карты Кохонена

Выполним предварительно небольшое формальное обобщение вышеизложенного.

Задача классификации [7] заключается в разбиении объектов на классы, причем основой для разбиения служат векторы параметров объекта. Объекты в пределах одного класса считаются эквивалентными с точки зрения критерия разбиения. Сами классы часто бывают неизвестны заранее, а формируются динамически. Т.е. и сети Кохонена и все рассмотренные выше методы реализуют концепцию "классификации без учителя": состав и количество полученных классов зависят только от предъявляемых объектов, и поэтому добавление нового объекта или исключение имеющегося может вызвать корректировку системы классов.

Будем характеризовать объекты, подлежащие классификации, вектором параметров х^р Î X . Введем также множество классов {C^m} в пространстве классификации С: (С^1ÈC²... È C^M) Ì C. Пространство классов может не совпадать с пространством объектов Х и, как правило, имеет меньшую размерность. Определим ядра классов {c^m} = с¹,...,с^m в пространстве классов С, как объекты, типические для своего класса. Введем также меру дистанции d(x^p ,с^m) — скалярную функцию от объекта и ядра класса, которая тем меньше, чем больше объект похож на ядро класса. Задавшись числом классов М, можно поставить задачу классификации: найти M ядер классов {c^m}и разбить объекты {х^р} на классы {C^m}, т.е. построить функцию т(р) таким образом, чтобы минимизировать сумму мер дистанции:

Функция т(р), определяющая номер класса по индексу p множества объектов {х^р}, задает разбиение на классы и является решением задачи классификации.

Выберем евклидову меру дистанции. В этом случае ядро класса, минимизирующее сумму мер близости для объектов этого класса, совпадает с центром тяжести объектов:

где N(m₀) — число объектов х^р в классе w_q. Тогда при разбиении на классы должна быть минимизирована суммарная мера близости для всего множества {х^р} входных объектов:

Поскольку сумма ' очень напоминает взвешенную сумму рассчитываемую формальным нейроном, алгоритм нахождения приведенного оптимума легко реализуется в виде нейронной сети. Для этого требуется сконструировать М сумматоров, настраивающих все D^m,p выходов сети, и интерпретатора, находящего сумматор m с максимальным выходом.

Таким образом, нейронная сеть, используемая для классификации, будет иметь М выходов, равное числу классов. Если выбрать в качестве входных данных вектор параметров единственного объекта, то результатом работы уже обученной сети будет код класса, к которому принадлежит предъявленный на входе объект. При этом, чем большее значение принимает выход номер w_q, тем больше "уверенность" сети в том, что входной объект принадлежит к классу w_q.

Рассмотренная сеть нейронов, использующая евклидову меру близости для классификации объектов, называется сетью Кохонена (рис.14) и обсуждалась ранее в разделе 1 как эффективное средство визуализации. Нейроны слоя Кохонена генерируют на выходе сигналы D^m,p , причем максимальный сигнал соответствует номеру класса объекта, который был предъявлен на входе, в виде вектора х^р.

Рис.14 . Сеть Кохонена

В описываемой сети ядра с^m являются весовыми коэффициентами нейронов. Каждый нейрон запоминает одно ядро класса, и отвечает за определение объектов в своем классе, т.е. величина выхода нейрона тем больше, чем ближе объект к данному ядру класса. Общее количество классов совпадает с количеством нейронов, но, меняя размерность проекционного ячеистого экрана, можно динамически менять количество классов.

Задача обучения — настроить все коэффициенты активации и научить сеть активировать один и тот же нейрон для похожих векторов х^р на входе. Для этого веса сети настраиваются итеративным алгоритмом, который в целом аналогичен многим известным приемам классификации, но изобилует различными эвристическими приемами, позволяющими получить устойчивое и субоптимальное решение за минимальное число итераций. В правила технологии обучения входят правильное распределение плотности ядер с использованием метода выпуклой комбинации, искусственное подавление активности нейронов-победителей, перераспределение весов среди нейронов R-окрестности и т.д. В литературе представлено детальное описание всех математических аспектов итеративного алгоритма, что избавляет нас от необходимости приводить детальное его изложение.

В результате обучения сети Кохонена строится совокупность карт, каждая из которых представляет двумерную сетку узлов, размещенных в многомерном пространстве. При этом используется такое раскрашивание карты, когда цвет каждого нейрона отражает величину связанного с ним визуализируемого критерия (расстояние между узлами, вклад того или иного исходного показателя, среднеквадратичную ошибку квантования и т.д.). Самый простой вариант - использование градаций серого цвета. В этом случае ячейки, соответствующие узлам карты, в которые попали элементы с минимальными значениями компонента или не попало вообще ни одной записи, будут изображены белым цветом, а ячейки, в которые попали записи с максимальными значениями такого компонента, будут соответствовать ячейке черного цвета. В принципе, для раскраски можно использовать любую иную градиентную палитру.

Для формирования карт Кохонена в системе ЭИС REGION предусмотрен информационный интерфейс с аналитическим пакетом Deductor Professional - набором приложений, предназначенных для быстрого и эффективного анализа информации.

Выполним построение самоорганизующихся карт для анализа пространственного распределения по территории Волжского бассейна 15 показателей, которые мы использовали в предыдущих примерах. Как и при применении итерационной процедуры кластеризации методом к-средних Мак-Кина, из всех возможных разбиений было задано деление на 6 кластеров.

Три карты, представленные на рис. 15, показывают общие итоги классификации. На карте а) отображаются группы векторов, расстояние между которыми меньше, чем расстояние до соседних групп. Иными словами, все элементы карты, входящие в область одного цвета, имеют сходные между собой признаки и определяют границы областей кластеров, число которых было задано.

а) Выделенные кластеры ячеек	б) Матрица расстояний UMatrix
в) Связь узлов карты с территориальными единицами Волжского бассейна

Рис. 15 . Классификация территориальных единиц Волжского бассейна с использованием самоорганизующихся карт Кохонена (обозначения те же, что и на рис. 8)

На карте б) рис. 15 представлена компонента UMatrix - унифицированная матрица расстояний, используемая для тонкого анализа структуры кластеров, полученных в результате обучения карты. Элементы матрицы определяют расстояние между весовыми коэффициентами нейрона и его ближайшими соседями. Большее значение говорит о том, что данный нейрон сильно отличается от окружающих и может принадлежать другому классу: например, можно предположить, что Татарстан имеет меньше оснований относиться к кластеру 4, чем. Пензенская обл.

На карте в) представлена маркировка узлов: для каждого нейрона ищется точка в исходном наборе данных (т.е. территориальная единица Волжского бассейна), ближайшая к каждому узлу или совпадающая с ним. По сравнению с аналогичными классификациями, сделанными другими методами, появились определенные модификации: например, Московская область все же объединилась с Волгоградской и Башкортостаном, зато оказалась неожиданно подчеркнута уникальность Рязанской обл. В то же время, по-прежнему вместе Кировская, Нижегородская, Ульяновская, Самарская области и Татарстан, объединенные 4-м кластером, а также такие географические антиподы, как Тверская и Саратовская области (см. кластер 1) .

Построенная совокупность (атлас, "слоеный пирог) карт отображает также проекции не только объектов, но и каждого исходного показателя, составляющего многомерные векторы, на сетку нейронов, которые соответствующим образом окрашиваются согласно значению того или иного признака. Процесс объяснения структурных механизмов объединения при помощи самоорганизующихся карт собственно и сводится к получению этих самых проекций и анализу образующихся групп кластеров. (см. рис. 16)

а) Смертность от рака кожи на 100 тыс. чел	б) Производство электроэнергии, млн.кВт в час/чел.
в) Выбросы в атмосферу от автомобильного транспорта,т/чел.	г) Внесение минеральных удобрений, кг/га

Рис. 16. SOM-карты для анализа вклада отдельных показателей в классификацию территориальных единиц Волжского бассейна

Например, можно предположить, что объединение исходных объектов в области в значительной мере произошло в силу следующих показателей, являющихся своеобразными "визитными карточками" классов:

кластер 3 - высокая смертность от рака кожи: фиг. а) рис. 16;
кластер 2 - большое производство электроэнергии: фиг. б) рис. 16;
кластер 5 - высокий уровнь автомобилизации: фиг. в) рис. 16;
кластер 4 - внесение минеральных удобрений фиг. г) рис. 16.

Впрочем, подобные выводы так же полуинтуитивны, как и "предметное наполнение" факторов при анализе главных компонент.

Литература (см. также литературу к разделу 1)

Дюран Б., Оделл П. Кластерный анализ. – М.: Статистика, 1977. – 128 с.

Классификация и кластер / Под ред. Дж. Вэн-Райзина. – М.: Мир, 1980. – 390 с.

Ким Дж.О., Мьюллер Ч.У, Клекка У.Р. и др. Факторный, дискриминантный и кластерный анализ. – М.: Финансы и статистика, 1989. – 215 с.

Мандель И.Д. Кластерный анализ. – М.: Финансы и статистика, 1988. – 176 с.

Краскел Дж.Б. Многомерное шкалирование и другие методы поиска структуры // Статистические методы для ЭВМ. – М.: Наука, 1986. С. 301-347.

Заенцев И.В. Нейронные сети: основные модели (учебное пособие). Воронежский гос. ун-тет, 1999. 76 с.

Дальше

Назад

Начало

Список