Дальше К следующему разделу Назад К предыдующему разделу Начало К началу разделу Конец К концу разделу Список К оглавлению

7.6. Метод многомерного шкалирования

Формулировка задачи

Пусть имеется квадратная матрица R размерностью n´ n, каждый элемент которой на пересечении i-й строки и j-го столбца, содержит достаточно произвольные сведения о попарном сходстве анализируемых объектов i и j. На выходе алгоритма многомерного шкалирования получаются числовые значения координат, которые приписываются каждому объекту в некоторой новой системе координат (во "вспомогательных шкалах", связанных с латентными переменными).

Многомерное шкалирование (МШ) можно рассматривать как альтернативу факторному анализу, когда, кроме корреляционных матриц, в качестве исходных данных можно использовать произвольный тип матрицы сходства объектов. МШ – это не сколько определенная математическая процедура, а скорее способ наиболее эффективного размещения объектов, приближенно сохраняющий расстояния между ними в новом пространстве признаков, размерность которого существенно меньше исходного.

Рекомендуемая литература: [Терехина, 1986; Краскэл, 1986; Дэйвисон, 1988; Ципилева, 1989].

Математический лист

Методы многомерного шкалирования размещают объекты в пространстве заданной размерности и проверяют, насколько точно полученная конфигурация сохраняет расстояния между объектами. При этом использует алгоритм минимизации некоторой функции, оценивающей качество получаемых вариантов отображения.

Первая в этом направлении работа В. Торгерсона [Torgerson, 1952; цит. по: Терехина, 1986] была посвящена поиску оптимальных шкал и линейному преобразованию матрицы исходных расстояний R, минимизирующему ошибку E:

Т = L{R} = D2 + E , (7.29)

где L{R} – линейное преобразование исходной матрицы расстояний, T – матрица расстояний, полученная на основе созданных шкал, E – матрица отклонений модели от исходных данных.

Р. Шепард и Дж. Краскэл [Shepard,1962; Kruscal,1964; цит. по: Терехина, 1986] совершили существенный прорыв, разработав метод неметрического шкалирования (МНШ), который имеет больше шансов получить действительно геометрическое пространство. Суть этого метода состоит в нелинейном (монотонном) M{R} преобразовании исходной матрицы расстояний:

Т = M{R}=D2+E .

Пусть с помощью специальной итерационной процедуры мы определили r шкал F1, …, Fr. Тогда расстояние между парой объектов i и j ; i = 1,2,…,n; j = 1,2,…,n; определяется, например, формулой Евклида:

tij= .(7.30)

Для однозначности задания шкал предполагается, что = 0 и . Кроме того, по аналогии с методом главных компонент, первая шкала выбирается с наибольшей дисперсией, вторая – имеет вторую наибольшую дисперсию и т.д. Кроме формулы Евклида могут быть использованы манхеттенское расстояние, метрика Минковского, формула Колмогорова и проч. (см. раздел 4.7)

В качестве критерия оптимизации итерационной процедуры выбора шкал используются различные похожие между собой показатели стресса (слово stress в английском языке имеет множество значений, одно из которых –"нагрузка"). Большинство из них сводится к вычислению суммы квадратов отклонений исходных rij и вычисленных шкалированием dij расстояний между объектами:

j ij = [tij - f (rij)]2.(7.31)

Здесь tij – воспроизведенные расстояния в пространстве заданной размерности, rij – исходное расстояние, а f(rij) обозначает функцию неметрического монотонного преобразования. Таким образом, МНШ воспроизводит не количественные меры сходств объектов, а лишь их относительный порядок.

Для измерения качества подгонки модели Дж. Такейном [Takane, 1977; цит. по Терехина, 1986] был предложен нормированный показатель стресса: S =,(7.32)

где норма матрицы ú ú означает сумму квадратов элементов матрицы. Этот показатель изменяется от 0 до 1: равенство его нулю означает точную подгонку модели, единице – полную ее бессмысленность. Таким образом, чем меньше значение стресса, тем лучше матрица исходных расстояний согласуется с матрицей результирующих расстояний. Кроме стресса Такейна употребимы нестандартизованный стресс, коэффициент стресса Краскела, использующий простые разности, вместо их квадратов, и коэффициент отчуждения. Показателем качества модели является также квадрат коэффициента корреляции между матрицами T и E, который, как и в регрессионном анализе, может быть интерпретирован как доля дисперсии преобразованных расстояний T, объясненная матрицей расстояний D.

Результаты анализа обычно представляются на двух- и трехмерных диаграммах рассеяния в пространстве шкал с отмеченными точками-объектами, образуя зрительный образ "экологического пространства" наблюдений или свойств. Уровень согласия может быть оценен с помощью графика ступенчатой функции Шепарда, где оси ординат OY показываются воспроизведенные расстояния, а по оси OX откладываются истинные расстояния между измерениями. Если все воспроизведенные расстояния легли на эту ступенчатую линию, то ранги наблюдаемых расстояний были в точности воспроизведены полученным решением.

Несмотря на то, что имеется много идентичного в характере решения исследуемых проблем, методы МНШ и факторного анализа имеют ряд существенных отличий. Так, факторный анализ требует, чтобы исследуемые данные подчинялись многомерному нормальному распределению, а зависимости были линейными. Методы МНШ не накладывают таких ограничений: они применимы на любых данных, где сохраняет смысл порядок следования рангов сходств (например, матрица сходства может быть получена с использованием оценок экспертов). С точки зрения различий получаемых результатов, факторный анализ стремится разложить общую дисперсию на большее число факторов (координатных осей или латентных переменных) по сравнению с МНШ, в результате чего МНШ часто приводит к проще интерпретируемым решениям.

Результаты расчетов

В табл. 7.5 раздела 7.4 была представлена матрица расстояний Махалонобиса между 10 реками Самарской области, рассчитанная по гидробиологическим показателям. Выполним нелинейное преобразование этой матрицы и отображение координат водных объектов в пространстве двух шкал. Параллельно осуществим многомерное шкалирование матрицы из F-критериев Фишера, соответствующих T2-критериям Хоттелинга из той же табл. 7.5.

Технически итеративный процесс шкалирования по описанному примеру дал хорошие результаты согласия между исходной и преобразованной функциями расстояния. Значения нормированного стресса по Такейну составили 0.1409 для меры Махалонобиса и 0.1063 для критерия Фишера. Диаграмма Шеппарда, представленная на рис. 7.13, показывает достаточно незначительные отклонения от графика ступенчатой функции, что свидетельствует о хорошем качестве подгонки модели. По крайней мере, можно утверждать, что преобразование исходной матрицы расстояний размерностью 11´ 11 в матрицу координат объектов 11´ 2 произошло без существенной потери информации.

Рис. 7.13. Ступенчатая диаграмма Шеппарда для оценки качества многомерного шкалирования

Полученные двухмерные диаграммы рассеяния, представленные на рис. 7.14 (“а”, “б”), описывают другими средствами ту же предметную сущность, что и дендрограммы на рис. 7.6 (“а”, “б”). Однако, на наш взгляд, устойчивость и обоснованность решений, полученных в представленном примере методами МНШ, существенно выше, чем у методов кластерного анализа.


а)


б)

Рис. 7.14. Отображение малых рек Самарской области в пространстве двух шкал, полученных на основе расстояний Махалонобиса (“а”) и критерия Фишера (“б”)

 

Дальше К следующему разделу Назад К предыдующему разделу Начало К началу разделу Конец К концу разделу Список К оглавлению