Дальше | Назад | Начало | Конец | Список |
9.6. Обучение без учителя: нейросети Кохонена
Формулировка задачи
Пусть имеется таблица произвольных гидробиологических наблюдений X размерностью m > 1.
Рассмотренный в предыдущих разделах алгоритм обучения нейронной сети с помощью процедуры обратного распространения подразумевал наличие некоего внешнего классификатора (как правило, человека), предоставляющего сети как входные, так и целевые выходные образы. Алгоритмы, пользующиеся подобной концепцией, называются алгоритмами обучения с учителем
.В то же время вся глава 7 была посвящена задаче кластерного анализа – алгоритмам без учителя – разбиению множества объектов на заданное или неизвестное число классов на основании некоторого априорного математического критерия качества классификации, отражающего в той или иной мере следующие неформальные требования:
Главная черта, делающая привлекательным обучение без учителя, – это его "самостоятельность", а возможная область применения состоит в обнаружении новых явлений. Естественным оказалось проникновение нейросетевых методов и в эту область моделирования.
Рекомендуемая литература: [Кохонен, 1982; Kohonen, 1982; Уоссермен, 1992; Нейронные сети.., 2001]
Математический лист
Самоорганизующиеся карты (Self Organizing Maps – SOM), разработанные Т. Кохоненом [Kohonen, 1982], представляют собой мощный аналитический инструмент, объединяющий в себе две основные парадигмы анализа – кластеризациию и проецирование, т.е. визуализацию многомерных данных на плоскости. Сеть Кохонена распознает кластеры в многомерных обучающих данных и относит все данные к тем или иным кластерам, используя алгоритм проецирования с сохранением топологического подобия. При этом те элементы выборки, которые находятся в относительной близости в исходном многомерном пространстве, оказываются рядом и в пространстве с более низкой размерностью.
Разумеется, при любой попытке свернуть информацию об объекте из m-мерного пространства в точку на плоскости могут быть потеряны некоторые детали, однако, такой прием часто бывает полезен, так как он позволяет визуализировать данные, которые никаким иным способом проанализировать невозможно. Если, например, сеть встретится с набором данных, не похожим ни на один из известных образцов, то она не сможет классифицировать такое наблюдение и тем самым выявит его новизну.
Сеть Кохонена имеет всего два слоя: входной и выходной, составленный из радиальных нейронов упорядоченной структуры (выходной слой называют также слоем топологической карты). Нейроны выходного слоя располагаются в узлах двумерной сетки с прямоугольными или шестиугольными ячейками. Количество нейронов в сетке определяет степень детализации результата работы алгоритма, и, в конечном счете, от этого зависит точность обобщающей способности карты.
Процесс обучения, как и в случае обучения с учителем, заключается в подстраивании весов синапсов методом последовательных приближений на основании их значений от предыдущей итерации. Обучение по алгоритму Кохонена сводится к минимизации разницы между входными сигналами нейрона, поступающими с выходов нейронов предыдущего слоя yi(n-1), и весовыми коэффициентами его синапсов:
, (9.23)
где
t обозначает номер эпохи (итерации).Полный алгоритм обучения будет выглядеть так.
Оценка выигравшего нейрона на шаге 3 может осуществляться с использованием любого алгоритма
k-ближайших соседей (например, путем расчета скалярных произведений векторов весовых коэффициентов с вектором входных значений и максимальное произведение будет указывать на выигравший нейрон).В результате итеративной процедуры обучения сеть организуется таким образом, что каждому входному измерению, заданному в
m-мерном пространстве исходных признаков, будет соответствовать ячейка-"победитель" на двумерной решетке топологического слоя сети. Для визуализации структуры кластеров, полученных в результате обучения карты, применяется унифицированная матрица расстояний. Элементы матрицы определяют расстояние между весовыми коэффициентами каждого нейрона и его ближайшими соседями. Большое значение расстояния говорит о том, что данный нейрон сильно отличается от окружающих и относится к другому классу.Основная трудность применения сетей Кохонена, как и в случае факторного анализа, заключается в смысловой интерпретации топологической карты и увязывании ее отдельных участков с некоторыми конкретными обобщениями из предметной области.
Результаты расчетов
Сформируем выборку из 88 наблюдений, выполненных на 15 станциях р. Сок. В качестве конкретных признаков, описывающих эти измерения, используем показатели обилия по 6 основным таксономическим группам хирономид (отдельно по подсемействам Orthocladiinae, Tanypodinae, Diamesinae, Prodiamesinae и трибам Chironomini и Tanytarsini), а также индексы Шеннона, Вудивисса и Пареле.
Выполним обучение самоорганизующейся сети с выходным топологическим слоем 10х10 ячеек и представим на рис. 9.13 серию карт Кохонена для рассматриваемого примера. Каждая карта представляет собой отображение выходного слоя нейронов, расположенных в узлах двумерной координатной сетки с прямоугольными или шестиугольными ячейками (шестиугольники дают более корректные результаты, т.к. расстояние между центрами ячеек ближе к евклидову, чем между центрами прямоугольников). Для визуализации карт будем применять градации серого цвета, т.е. чем больше значение отображаемого показателя, тем темнее прорисовывается связанный с ним узел. Полученный набор раскрасок может использоваться для анализа закономерностей, имеющихся между компонентами набора данных.
Карта а). Области кластеров |
Карта б). Частоты выигрышей |
Карта в). По станциям |
Карта г). Индекс Вудивисса |
Карта д). Обилие Prodiamesinae |
Карта е). Обилие Tanypodinae |
Рис. 9.13. Топологические карты Кохонена для комплекса наблюдений, сделанных на р. Сок
Представленные на рис. 9.13 карты Кохонена могут быть интерпретированы следующим образом.
Дальше | Назад | Начало | Конец | Список |