1. Формальная постановка ...

Дальше

Назад

Конец

Список

1. Формальная постановка задачи визуализации данных

В этом разделе мы приводим обзор тех методов, которые в настоящее время используются для визуального представления сразу всей структуры многомерного набора данных [1]. Для визуализации могут быть использованы 1-, 2- и 3-мерные пространства отображений, но мы в своем рассмотрении практически целиком ограничимся способом визуализации с помощью 2-мерных поверхностей, поскольку именно в таком виде человек воспринимает геометрические структуры наиболее естественно и отношения между объектами выглядят наиболее наглядно.

Под визуализацией данных мы понимаем такой способ представления многомерного распределения данных на двумерной плоскости, при котором, по крайней мере, качественно отражены основные закономерности, присущие исходному распределению – его кластерная структура, топологические особенности, внутренние зависимости между признаками, информация о расположении данных в исходном пространстве и т.д. В качестве основных применений методов визуализации можно указать следующие:
а) наглядное представление геометрической метафоры данных;
б) лаконичное описание внутренних закономерностей, заключенных в наборе данных;
в) сжатие информации, заключенной в данных;
г) восстановление пробелов в данных;
д) решение задач прогноза и построения регрессионных зависимостей между признаками.

Один из способов целенаправленного проецирования в пространства малой размерности (в зарубежной литературе – projecting pursuit) заключается в следующем: найти такое отображение U (способ проецирования) из исходного пространства на двумерную плоскость, которое бы оптимизировало заданный критерий качества Q – некоторый функционал от координат точек данных до и после процедуры проецирования: Q(U,X). Здесь под X понимается весь набор многомерных данных, а Q зависит от параметров отображения.

Например, если каждой точке многопараметрических данных можно было бы приписать две координаты (например, с использованием квазилинейной модели), то это позволяет построить в пространстве данных гладкое многообразие, которое обладает свойством обобщать заключенную в данных информацию и служить для лаконичного описания, сжатия информации или для восстановления пробелов в данных. Тогда проецирование данных в пространство меньшей размерности заключается в настройке процедуры построения моделирующей двумерной поверхности, вложенной в многомерное пространство признаков.

Можно выделить различные варианты решения задачи проецирования:

1.1. Процедура ортогонального проецирования (метод главных компонент)

В этом случае вид отображения U известен заранее и является линейным отображением на плоскость.

Допустим, что облако объектов “похоже” на выборку из генеральной совокупности, подчиненной закону нормального распределения (уточнению понятия “похоже” посвящена литература по проверке статистических гипотез, например [2], здесь мы не будем вдаваться в тонкости этой серьезной науки). Попробуем дать описание распределения точек данных в пространстве, которое имеют одну точку сгущения (унимодальную плотность) в точке среднего арифметического значений всех признаков. Чем ближе к этой точке, тем выше плотность распределения объектов. Более 60% всех объектов находятся в области, представляющей собой эллипсоид рассеяния, центрированный в точке сгущения с осями, равными собственным значениям ковариационной матрицы (см. рис. 1).

Проведем прямую через центр сгущения, ориентированную вдоль наибольшей вытянутости (дисперсии) облака данных (см. рис. 1а). Это направление совпадает с направлением наибольшей по длине оси эллипсоида рассеяния. Назовем такую прямую первой из главных компонент и отметим, что для нее средний квадрат расстояния до точек данных минимален.


Рис. 1а. Двумерное нормальное распределение точек. I, II – главные компоненты, Э – эллипсоид рассеяния	Рис. 1б. Искажения, возникающие при проецировании. d – реальное расстояние, s – расстояние между проекциями 1) s » d ; 2) s << d ; 3) s = 0

Первая из главных компонент соответствует самой существенной долей извлеченной из набора данных информации, причем тем более существенной, чем длиннее наибольшая из осей эллипсоида рассеяния по сравнению с остальными. Значения координат вектора, задающего направление первой из главных компонент, являются количественными мерами значимости признаков (чем меньше значение соответствующей координаты, тем менее значим и информативен признак). Уравнение главной компоненты позволяет приближенно восстановить значения всех признаков, если известно значение только одного из них.

Если точность такого моделирования данных оказывается недостаточной, то определяется направление второй из главных компонент. Из векторов, соответствующих каждой точке данных вычтем вектор ортогональной проекции точки на первую главную компоненту. Назовем новый полученный набор векторов множеством первых остатков. Построим в этом множестве первую главную компоненту. Ее направление окажется направлением второй главной компоненты для исходного множества. Это будет прямая, проходящая через центр распределения, перпендикулярно к первой из главных компонент, совпадающая с направлением второй из главных полуосей эллипсоида рассеяния.

На полученные два вектора можно натянуть плоскость первых двух главных компонент. Среди всех плоскостей эта плоскость обладает свойством минимума суммы квадратов расстояний от нее до точек данных. С помощью нее можно а) построить двухфакторную модель данных; б) восстановить значения признаков объекта, если известны значения двух признаков; в) простым образом визуализировать многомерные данные, спроецировав каждую точку данных ортогонально на плоскость первых двух главных компонент.

Итак, наиболее приемлемым способом визуализировать набор точек данных, чье распределение “похоже” на выборку из нормальной генеральной совокупности, является ортогональное проецирование на плоскость первых двух главных компонент. Плоскость проектирования является, по сути плоским двумерным “экраном”, расположенным в пространстве таким образом, чтобы обеспечить “картинку” данных с наименьшими искажениями. Такая проекция будет оптимальна (среди всех ортогональных проекций на разные двумерные экраны) в трех отношениях:
1) Минимальна сумма квадратов расстояний до точек данных, то есть экран расположен максимально близко по отношению к облаку точек.
2) Минимальна сумма искажений расстояний между всеми парами точек из облака данных после проецирования точек на плоскость.
3) Минимальна сумма искажений расстояний между всеми точками данных и их “центром тяжести”, а также сумма искажений углов между векторами, соединяющими точки и “центр тяжести”.

Кроме минимизации расстояния от точек данных до их проекций в качестве оптимизируемого функционала могут быть использованы и другие проекционные индексы, например, максимизация энтропии конечного двумерного распределения данных [3].

1.2. Многомерное шкалирование

Если считается, что вид отображения U заранее неизвестен, тогда в качестве оптимизируемого критерия минимизируют функционал, описывающий “меру искажения” структуры данных. Одним из самых популярных является функционал, являющийся аналогом стресса в многомерном шкалировании и описывающий меру искажения взаимных расстояний между точками в исходном и результирующем пространстве отображения.

Многомерное шкалирование используют в том случае, когда исходная информация изначально представлена не в виде таблицы типа “объект-признак”, а в виде квадратной таблицы удаленностей объектов друг от друга. На пересечении i-ой строки и j-ого столбца в такой таблице стоит оценка расстояний от i-го до j-го объекта. Таким образом, изначально каждому объекту не сопоставляется никакой координаты в многомерном пространстве и представить такую информацию в виде геометрической метафоры затруднительно.

Задача многомерного шкалирования заключается в том, чтобы сконструировать распределение данных в пространстве двух шкал таким образом, чтобы расстояния между объектами соответствовали заданным в исходной матрице удаленностей. Возникающие координатные оси могут быть интерпретированы как некоторые неявные факторы, значения которых определяют различия объектов между собой. Если попытаться сопоставить каждому объекту пару координат, то в результате мы получим способ визуализации данных.

В литературе [4] описаны различные алгоритмы многомерного шкалирования, хотя сами вычислительные процедуры этих алгоритмов практически не отличаются. В частности, в метрическом нелинейном методе размерность пространства задается изначально и с помощью градиентных методов оптимизируется функционал качества, называемый стрессом и описывающий меру искажения матрицы удаленностей.

Аналогично традиционному факторному анализу, в многомерном шкалировании существует неоднозначность выбора координат, связанная с тем, что координатную систему в полученном пространстве можно произвольным образом повернуть – расстояния между объектами при этом не изменяются. Как правило, поворот осуществляют таким образом, чтобы либо полученные координатные оси имели максимально наглядную интерпретацию, либо значения определенных признаков оказались максимально скоррелированы.

1.3. Снижение размерности с учетом нелинейности данных

Возникает естественный вопрос – а как обстоит дело с наборами данных, которые не могут считаться выборками из генеральной совокупности с нормальным распределением? Разумеется, почти всегда можно найти такое криволинейное двумерное отображение U, с помощью которого будет возможно добиться еще лучших значений критериев оптимизации Q. Но существует общий рецепт: если линейный метод работает хорошо и решает поставленные задачи, то его и следует использовать, даже если нет статистически оправданных посылок для его применения.

Однако, часто ситуация требует описывать данные “так, как они есть”, без использования дополнительных предположений о характере их распределения. Тогда задачу проецирования данных можно сформулировать как задачу наилучшей аппроксимации многомерного набора точек данных более или менее гладкими нелинейными поверхностями, вложенными в это пространство. В этом смысле сложное многомерное множество точек данных заменяется более простым и регулярным объектом – многообразием или сеткой, для описания которой требуется меньше информации.

Задача снижения размерности данных может быть описана как с помощью наглядных образов различных криволинейных поверхностей, вложенных в многомерное пространство, так и с помощью описания такой нейросети, в которой число входов равно размерности пространства, а количество выходов равно размерности моделирующего многообразия. В наши задачи не входит подробное изложение методов нейросетевого анализа данных, который стал в последние десятилетия очень популярен и читатель легко удовлетворит свое любопытство [5-7].

Рассмотрим автоассоциативную сеть нейросеть “с узким горлом” (см. рис. 2). В ней число выходов равно число входов, но сеть содержит внутренний слой с небольшим числом нейронов. Сеть обучается на воспроизведение входов – то есть ответ нейросети считается правильным, когда значения сигналов на каждом выходе совпадает со значением на соответствующем ему входе (). Если удается обучить такую нейросеть, то она способна решать задачу сокращения размерности – и тогда сигнал необходимо снимать с нейронов “горла” сети.

Рис. 2. Архитектура автоассоциативной нейронной сети с узким горлом.

Трехслойная автоассоциативная сеть сначала линейно преобразует входные данные в меньшую размерность промежуточного слоя, а затем снова линейно разворачивает их в выходном слое. Можно показать, что такая сеть на самом деле реализует стандартный алгоритм анализа главных компонент. Для того, чтобы выполнить нелинейное понижение размерности, нужно использовать пятислойную сеть, средний слой которой служит для уменьшения размерности, а соседние с ним слои, отделяющие его от входного и выходного слоев, выполняют нелинейные преобразования. Если из пятислойной обученной автоассоциативной сети удалить два последних слоя, то получается сеть для проецирования, с помощью которой генерируется версия входных данных, преобразованных в пространство, размерность которого равна числу нейронов третьего оставшегося слоя.

Итак, в основе методов целенаправленного проецирования и многомерного шкалирования лежит идея оптимизации некоторого функционала, который зависит от начального положения точек в пространстве и конечного расположения точек на двумерной плоскости. Выбирая различные виды функционалов, можно строить различные проекции данных, на которых будут подчеркнуты те или иные их особенности. В целом такой подход является достаточно прозрачным и ясным, но при его практическом использовании возникают определенные трудности.

Во-первых, задача оптимизации нелинейной функции является трудной сама по себе. В большинстве методов используются, как правило, градиентные процедуры, требующие больших вычислительных затрат, которые растут пропорционально квадрату от числа точек данных.

Во-вторых, оказывается, что выразительная картина многомерного распределения данных, изображенная на двумерной картинке еще не решает всех вопросов, которые может поставить себе исследователь. Заманчива идея наносить на двумерную карту не только сами точки данных, но и разнообразную информацию, сопутствующую данным: например, отображать так или иначе положение точек в исходном пространстве, плотности различных подмножеств, другие непрерывно распределенные величины, заданные в исходном пространстве признаков. Все это подталкивает к мысли использовать как можно полнее тот “фон”, на который наносятся данные, а также вид самих точек данных для отображение различной количественной и атрибутивной информации.

Наконец, после того, как данные нанесены на двумерную плоскость, хотелось бы, чтобы появилась возможность расположить на двумерной плоскости те данные, которые не участвовали в настройке отображения. Это позволило бы, с одной стороны, использовать полученную картину для построения различного рода экспертных систем и решать задачи распознавания образов, с другой – использовать ее для восстановления данных с пробелами.

Таким образом, можно подойти к естественному обобщению понятия карты, как объекта, который представляет из себя ограниченное двумерное нелинейное многообразие, вложенное в многомерное пространство данных таким образом, чтобы служить моделью данных.

Простой пример карты данных – плоскость первых двух главных компонент. Как мы уже упоминали, среди всех двумерных плоскостей, вложенных в пространство, она служит оптимальным экраном, на котором можно отобразить основные закономерности, присущие данным. В качестве другой, еще более простой (но не оптимальной) карты можно использовать любую координатную плоскость любых двух информативных переменных, в том числе, и пространственных, если географические координаты являются приоритетными для анализа данных.

Обобщением способа представлять данные с помощью метода главных компонент будет случай, когда карта может иметь любую нелинейную форму, не используя в процессе построения карты никаких гипотез о распределении данных. Детальному описанию процедур создания и интерпретации гибких карт посвящена прекрасная монография [8].

1.4. Топологические изображения и самоорганизующиеся карты

До сих пор мы представляли карту как ординацию изучаемых объектов и/или их свойств в системе двух ортогональных метрических осей. Другим способом картографирования является формирование в общем случае неметрического топологического изображения в виде гипотетической “эластичной сети”, с узлами которой соотнесено континуальное (непрерывное) изменение свойств анализируемых объектов. Узлы (нейроны) такой сети соединены между собой связями и образуют проекционный экран. Обычно используются два варианта соединения узлов – в прямоугольную и гексагональную сетку (см. рис. 1) – отличие состоит в том, что в прямоугольной сетке каждый узел соединен с 4-мя соседними узлами, а в гексагональной – с 6-ю ближайшими соседями.

а)

б)

Рис. 3. Два варианта расположения узлов сетки топографического изображения
а) прямоугольная сетка, б) гексагональная сетка

Формирование топографического изображения может быть реализовано с использованием нейронных сетей особого типа – так называемых самоорганизующиеся структур, обучаемых "без учителя" по аналогии с известными принципами функционирования нервных клеток [9]. В этих сетях на слой нейронов, составляющих проекционный экран, подается входной образ, состоящий из векторов исходных данных,, и сигналы возбуждения распространяются по всему слою согласно принципам классических прямопоточных (feedforward) сетей, то есть для каждого нейрона рассчитывается взвешенная сумма его входов, к которой затем применяется передаточная функция нейрона, в результате чего получается его выходное значение. Процесс обучения заключается в подстраивании весов синапсов, которое осуществляется только на основании информации, доступной в нейроне, то есть его состояния и уже имеющихся весовых коэффициентов.

Т.Кохонен [10-11] предложил модификацию алгоритма соревновательного обучения Хебба, в результате чего пропорциональный вклад стали получать не только нейроны-победители, но и ближайшие их соседи, расположенные в окрестности R. Вследствие этого положение нейрона в выходном слое стало коррелировать с положением прототипов в многомерном пространстве входов сети, т.е. близким нейронам стали соответствовать близкие значения входов X. "Проекционный экран" в процессе обучения приобрел свойства упорядоченной структуры, в которой величины синапсов нейронов плавно меняются вдоль двух измерений, имитируя двумерную сетку координат.

Такой способ отображения получил название самоорганизующихся карт (SOM – Self-Organizing Maps или SOFM – Self-Organizing Feature Maps), которые сразу превратились в мощный аналитический инструмент, объединяющий в себе две основные парадигмы анализа – кластеризациию и проецирование, т.е. визуализацию многомерных данных на плоскости.

Самоорганизующиеся карты, относящиеся к топографическим отображениям, аппроксимируют изменения свойств анализируемых объектов, поскольку воспроизводят на выходе нейронной сети топологический порядок и определенную степень регулярности (сходства) метрически близких векторов исходных данных. Понятие топографии в SOM определено на нескольких уровнях:

Сохранение топологии. В наиболее общем смысле подобие между структурой исходных данных и картой определяется структурой соседства в множестве точек данных и нейронов (узлов), то есть топологией. В этом случае топография означает сохранение топологии и эквивалентной непрерывности отображения входного набора данных на выходной.
Сохранение порядка. Более строгим значением такого подобия является сохранение порядка расстояний между парами точек данных и соответствующими парами нейронов, на которые эти точки отображают Это означает, что большие расстояния переходят в большие монотонным образом, возможно, без соблюдения какой-то фиксированной пропорциональности.
Сохранение метрических свойств. Еще более строгое понимание подобия основано на прямом вычислении метрических (то есть выраженных численно) расстояний между парами точек и соответствующими парами нейронов. В таком смысле топография означает сохранение метрических отношений.

Рассматривая отображение, построенное в результате применения алгоритма обучения SOM, как ординационное, можно выделить несколько существенных отличий. Традиционные ординации либо требуют задания заранее известных осей и шкал на них (например, георгафические координаты или факториальные градиенты среды), либо используют только одну ось (например, различные методы построения дендрограмм). Использование заранее определенных шкал возможно только при надлежащей калибровке исходных данных, что не всегда возможно. Использование дендрограмм не позволяет отобразить всю структуру “взаимоотношений” классов в силу своей дихотомичности (Савельев, 2004).

Таким образом, нейронные сети Кохонена и их обобщения являются в настоящее время практически единственным средством, позволяющим (в силу адаптивности и самоорганизации нейронной сети, не требующей предварительной калибровки данных, устойчивости к шумам и искажениям) выполнить ординацию и выявить структуру объектов с учетом всей совокупности данных.

Литература

Зиновьев А.Ю., Питенко А.А., Россиев А.А. Проектирование многомерных данных на двумерную сетку. // 2-я Всероссийская научно-техническая конференция “Нейроинформатика-2000”. Ч.1. М.: МИФИ.– 2000. С.80-88.

Кендалл М., Стюарт А. Статистические выводы и связи.- М.: Наука, 1973.-900 с.

Айвазян С.А., Бухштабер В.М., Енюков И. С., Мешалкин Л. Д. Прикладная статистика. Классификация и снижение размерности.- М.: Финансы и статистика, 1989.-607 с.

Терехина А.Ю. Анализ данных методами многомерного шкалирования.- М.: Наука, 1986.-168 с.

Горбань А.Н., Россиев Д.А. Нейронные сети на персональном компьютере. Новосибирск: Наука (Сиб. отделение), 1996. 276 с.

Ежов А.А., Шумский С.А. Нейрокомпьютинг и его приложения в экономике и бизнесе. М.: Изд-во МИФИ, 1998.

Шитиков В.К., Розенберг Г.С., Зинченко Т.Д. Количественная гидроэкология: методы системной идентификации. Тольятти: ИЭВБ РАН, 2003. 463 с.

Зиновьев А.Ю. Визуализация многомерных данных.

Блум Ф., Лейзерсон А., Хофстедтер Л. Мозг, разум и поведение, М., Мир, 1988.

Кохонен Т. Ассоциативные запоминающие устройства. – М.: Мир, 1982. – 383 с.

Kohonen T. Self-organization and Associative Memory.Springer-Verlag: New York, 1997. 428 p.

Дальше

Назад

Начало

Список