Дальше К следующему разделу Назад К предыдующему разделу Начало К началу разделу Конец К концу разделу Список К оглавлению

2.6. Эмпирико-статистические модели

Мем № 16: “Мы имеем по крайней мере одно весьма серьезное преимущество – владеем вероятностным мышлением” А.Н. Колмогоров [цит. по: Леонов, URLв].

Сущность, определения, классификация

Эмпирико-статистические модели объединяют в себе практически все биометрические методы первичной обработки экспериментальной информации. Основная цель построения этих моделей состоит в следующем:

Часто эмпирико-статистические модели являются "сырьем" и обоснованием подходов к построению моделей других типов (в первую очередь, имитационных).

Важным методологическим вопросом является определение характера зависимости между факторами и результативными показателями: функциональная она или стохастическая, прямая или обратная, прямолинейная или криволинейная и т.д. Здесь используются теоретико-статистические критерии, практический опыт, а также способы сравнения параллельных и динамичных рядов, аналитических группировок исходной информации, графические методы и др.

Детерминированный анализ представляет собой методику исследования влияния факторов, связь которых с результативным показателем носит явно выраженный функциональный характер, т.е. когда результативный показатель представляется в виде произведения, частного или алгебраической суммы исходных факторов. Многочисленными примерами детерминированного подхода являются методики расчета различных гидрохимических и гидробиологических индексов, приведенных в части 2. В этих случаях исследователь сам берет на себя ответственность в том, что:

Стохастический анализ представляет собой обширный класс методов, опирающихся на теоретико-вероятностные представления, теоремы, критерии и методы параметрической и непараметрической статистики.

Исходный объект в любой системе обработки данных – это эмпирический ряд наблюдений или выборка. Выборки, описывающие явления и процессы в экосистеме, находятся во взаимосвязи, взаимозависимости и обусловленности. При этом каждое явление можно рассматривать и как причину, и как следствие. Одни выборки могут быть непосредственно связаны между собой, образуя подмножества сопряженных данных, другие могут соотноситься друг с другом косвенно.

Согласно классификации статистических методов, принятой в [Прикладная статистика.., 1987; Орлов, URLа,б], прикладная статистика делится на следующие четыре области:

В вероятностной теории статистики выборка – это совокупность независимых одинаково распределенных случайных элементов. Природа этих элементов может быть различной. В классической математической статистике (той, что обычно преподают студентам) элементы выборки – это числа. Многомерный статистический анализ оперирует с векторами и матрицами данных. В нечисловой статистике элементы выборки – это объекты нечисловой природы, которые нельзя складывать и умножать на числа (другими словами, объекты нечисловой природы лежат в пространствах, не имеющих формальной векторной структуры).

Следует оговориться, что не существует какой-либо однозначной классификации эмпирико-статистических методов. Например, широкий пласт методов кластерного анализа, распознавания образов, анализа экспертных оценок и др., подробно описанных в части 3, занимают промежуточное положение: используя некоторые теоремы классической теории вероятностей, они имеют принципиально детерминированные механизмы поиска и основаны на эвристических алгоритмах. В связи с этим, говоря в дальнейшем о “статистике”, мы будем понимать ее в широком смысле, в полном соответствии с приведенными ниже цитатами (используется обширная "Коллекция высказываний о термине "статистика"" на сайте http://www. biometrica.tomsk.ru/lib/collect.htm) :

Несмотря на неопределенность в трактовке самого термина “статистика”, мировой научной общественностью предпринимаются последовательные шаги по унификации конкретных методик статистического анализа. Например, в 1978 г. редакторы нескольких ведущих медицинских и биологических журналов собрались в Ванкувере (Канада), где и сделали первую попытку выработать технические требования к схемам представления результатов статистической обработки в рукописях, направляемых в редактируемые ими журналы. В настоящее время "Единые требования к рукописям", подготовленные Ванкуверской группой, становятся международным стандартом в статистике и действенным механизмом в стремлении повысить доказательность и надежность публикуемых сообщений.

В.П. Леонов, редактор электронного журнала БИОМЕТРИКА (www.biometrica.tomsk.ru); взял на себя труд перевести требования Ванкуверской группы, дополнив их рекомендациями ведущих российских статистиков и собственным опытом. Мы приводим без сокращений эту достаточно обширную таблицу, любезно предоставленную В.П. Леоновым, еще и потому, что она является своеобразным расширенным "классификатором" статистических методов и критериев.

Посмотреть схемы представления результатов статистической обработки для различных критериев и методов анализа

Задачи о выборках: анализ распределений, сравнение, поиск зависимостей

Анализ каждой произвольной выборки, представляющей собой совокупность независимых, одинаково распределенных случайных измерений, начинается с расчета описательных статистик эмпирического ряда: средних, дисперсии, основных моментов высшего порядка, медианы, моды, стандартного отклонения, ошибки среднего и др. Расчету элементарных статистик посвящено огромное множество литературы [Урбах, 1963; Смирнов, Дунин-Барковский, 1965; Крамер, 1975; Гнеденко, 1988; Калинина, Панкин, 2001; Ю. Прохоров, 2002], что избавляет нас от необходимости углубляться в эту тему. Рядом авторов [Браунли, 1977; Айвазян с соавт., 1983; Зайцев, 1984] предлагаются также специальные критерии, предназначенные для оценки показателей вариации, точности опыта, репрезентативности и случайности выборок и т.д. Можно привести также некоторые ссылки на источники, где статистические методы рассматриваются в контексте использования популярных пакетов прикладных программ [Тюрин, Макаров, 1995; Боровиков, 2001; Алексахин с соавт., 2002] или в виде руководства к использованию офисного табличного процессора Excel [Лапач с соавт., 2000].

Особое место в анализе выборок занимает проверка соответствия характера эмпирического распределения какому-нибудь заданному закону распределения [Кендалл, Стьюарт, 1966; Гмурман, 1972; Джонсон, Лион, 1980, 1981]. Это связано с тем, что вид функции распределения часто постулируется как одно из важнейших предположений применения большинства статистических методов.

Разработанную в первой трети ХХ в. теорию называют параметрической статистикой [Плошко, Елисеева, 1990; Орлов, URLб], поскольку ее основной объект изучения – это выборки из распределений, описываемых одним или небольшим числом параметров. Наиболее общим является семейство кривых Пирсона, задаваемых четырьмя параметрами [Елисеева, Юзбашев, 1995; Вентцель, 1999]. Как правило, нельзя указать каких-либо веских причин, по которым конкретное распределение результатов экологических наблюдений должно входить в то или иное параметрическое семейство. В подавляющем большинстве реальных ситуаций таких предположений сделать нельзя, но, тем не менее, приближение реального распределения с помощью кривых из семейства Пирсона или его подсемейств часто не является чисто формальной операцией. Закономерности расчета описательных статистик в зависимости от распределения эмпирического ряда хорошо известны: если вероятностная модель основана на нормальном распределении, то расчет математического ожидания предусматривает суммирование независимых случайных величин; если же модель приближается к логарифмически нормальному распределению, то итог естественно описывать как произведение таких величин и т.д.

В первой же трети ХХ в., одновременно с параметрической статистикой, в работах Ч.Спирмена и М. Кендалла появились первые непараметрические методы, основанные на коэффициентах ранговой корреляции, носящих ныне имена этих статистиков [Кендалл, 1975; Рунион, 1982; Холлендер, Вулф, 1983]. Но непараметрика, не делающая нереалистических предположений о том, что функции распределения результатов наблюдений принадлежат тем или иным параметрическим семействам распределений, стала заметной частью статистики лишь со второй трети ХХ в. В 30-е годы появились работы А.Н. Колмогорова и Н.В. Смирнова, предложивших и изучивших статистические критерии, носящие в настоящее время их имена и основанные на использовании так называемого эмпирического процесса – разности между эмпирической и теоретической функциями распределения [Большев, Смирнов, 1968; Гублер, Генкин, 1973].

Во второй половине XX в. развитие непараметрической статистики пошло быстрыми темпами, в чем большую роль сыграли работы Ф. Вилкоксона и его школы [Гаек, Шидак, 1971]. К настоящему времени с помощью непараметрических методов можно решать практически тот же круг статистических задач, что и с помощью параметрических [Никитин, 1995]. Все бóльшую роль играют непараметрические оценки плотности вероятности, непараметрические методы регрессии и распознавания образов (дискриминантного анализа).

Тем не менее, параметрические методы всё еще популярнее непараметрических, хотя неоднократно публиковались обзоры [Налимов, 1960; Максимов с соавт., 1999], свидетельствующие о том, что распределения реально наблюдаемых случайных величин (в частности, биологических данных) в подавляющем большинстве случаев отличны от нормальных (гауссовских). Теоретики продолжают строить и изучать статистические модели, основанные на гауссовости, а практики – применять подобные методы и модели (“ищут под фонарем, а не там, где потеряли”). Однако полностью игнорировать классические методы не менее вредно, чем переоценивать их. Поэтому целесообразно использовать одновременно оба подхода – и параметрические методы, и непараметрическую статистику. Такая рекомендация находится в согласии с концепцией математической устойчивости [Орлов, 1979], рекомендующей использовать различные методы для обработки одних и тех же данных с целью выделить выводы, получаемые одновременно при всех методах.

Любая выборка экологических данных является принципиально неоднородной, поскольку измерения могут осуществляться в различные временные периоды, разных пространственных точках водоема, с использованием различных инструментальных методов и т.д. В связи с этим, важным этапом математической обработки является дисперсионный анализ, с помощью которого оценивается, имеют ли место статистические различия между отдельными подмножествами данных и можно ли считать их принадлежащими одной генеральной совокупности [Плохинский, 1970; Лисенков, 1979; Джонсон, Лион, 1980, 1981, Любищев, 1986]. Если каждому измерению поставлен в соответствие один признак (фактор), определяющий условия его реализации, то говорят об однофакторном дисперсионном анализе. Если таких группообразующих факторов больше одного, то выполняется многофакторный дисперсионный анализ [Плохинский, 1982; Афифи, Эйзен, 1982].

Если выборка состоит из двух рядов сопряженных наблюдений, измеренных в идентичных условиях, то решается задача регрессионного анализа, т.е. один эмпирический ряд объявляется результативным показателем или “откликомY, а другой – независимой варьируемой переменной X или “фактором”. Теория и практика одномерного регрессионного анализа также представлена многочисленными литературными источниками [Хальд, 1956; Андерсен, 1963; Себер, 1980; Дрейпер, Смит, 1986; Дюк, 1997].

Мем № 17: “Те биологические системы, которые не смогли охватить громадный диапазон жизненно значимых воздействий среды, попросту вымерли, не выдержав борьбы за существование. На их могилах можно было бы написать: "Они были слишком линейны для этого мира". Но такая же судьба ожидает и математические модели, не учитывающие этой важной особенности жизни” А.М. Молчанов [1975].

Основной задачей регрессионного анализа является идентификация вида функциональной зависимости Y » f(X), восстанавливаемой по эмпирическим данным. Реальный мир в подавляющем большинстве случаев объективно нелинеен (нелинеен, например, даже закон Ома, если в нем учесть температурную зависимость). В ряде случаев вид аппроксимирующего уравнения заранее предполагается из некоторых теоретических соображений. Если этого нет, то, исходя из принципа множественности моделей В.В. Налимова, одному и тому же конечному результату будет соответствовать значительное множество вариантов расчетных формул. Возникает традиционная ситуация пребывания исследователя “между Сциллой усложненности и Харибдой недостоверности”, когда необходим выбор регрессионного уравнения оптимальной сложности.

Нелогично описывать уравнением прямой или другими простыми алгебраическими функциями динамику рядов биологических показателей, характеризующихся "горбами", перегибами и прочими нестационарными атрибутами. В этом случае неоптимальность модели связана с ее недоопределенностью, когда сложность структуры аппроксимирующей функции недостаточна для отображения сложности изучаемого процесса. Еще раз напомним слова А.Г. Ивахненко о том, что сложность модели для сложных объектов принципиально необходима.

Другим возможным источником неоптимальности является переопределенность структуры выбранной модели: через n точек всегда можно провести бесконечное множество кривых с нулевой ошибкой (например, с помощью полиномов степени выше n), но это исключает какую-либо возможность содержательной интерпретации полученной зависимости. До сих пор во многих научных работах авторы постулируют некоторую функцию лишь на том основании, что она весьма близко прошла через их экспериментальные точки [Фукс, 1975; Айвазян с соавт., 1985]. Такие доказательства "правильности" теорий нельзя принимать серьезно, так как за пределами эмпирического материала такая модель может вести себя достаточно "причудливым" образом, что поставит под сомнение возможность получения надежного прогноза и достоверной связи между факторами. “Переусложнение модели так же вредно, как и ее недоусложнение” [Ивахненко, 1982].

Сущность нахождения модели оптимальной сложности заключается в ее поэтапной структурной идентификации, т.е. одновременном определении оптимальной структуры и оценки параметров модели. Например, можно предложить следующий порядок подгонки моделей:

Более строгие методы проверки гипотезы о линейности связаны с анализом выборочных корреляционных отношений на основе методов интервальной математики.

Таблицы сопряженности и интервальная математика

Математический аппарат, осуществляющий анализ таблиц сопряженности, используется в тех случаях, когда данные, в которых измерены показатели Y и X, представлены в шкале наименований или порядковой шкале В этих случаях любые статистические методы, основанные на параметрических распределениях, оказываются неприменимыми и анализ таблиц сопряженности [Елисеева, Рукавишников, 1977; Аптон, 1982; Енюков, 1986; Флейс, 1989] оказывается практически единственным надежным видом обработки (хотя существуют, например, специальные методы регрессии типа логит- и пробит-анализа или нейросетевой анализ).

Среди различных статистических методов изучения биологической вариабельности анализ частот считается наиболее распространенным и адекватным. Достаточно напомнить, что именно анализу частот современная биология обязана открытием гена (Г. Мендель, Т. Морган). Популярность этого подхода оказалась настолько велика, что разработаны методики его адаптации к количественным признакам, которые заключаются в разбиении области существования переменной на интервалы и подсчете вероятностей появления значения признака в каждом из этих интервалов. Таким образом, можно получить надежную и непротиворечивую оценку степени и характера влияния фактора на зависимую переменную, хотя, в отличие от регрессионного анализа, конкретный расчет уравнения связи Y » f (X) здесь не достигается.

Как отмечалось выше, при анализе эмпирического материала часто оказывается, что средняя арифметическая и коэффициент корреляции – плохие количественные характеристики гидробиологических данных, где часто не подтверждается гипотеза о нормальности распределения. Возникают ситуации, когда средние арифметические биологических признаков статистически неразличимы, хотя на самом деле выборки этих значений имеют существенные отличия. Коэффициенты корреляции Пирсона и уравнения регрессии могут свидетельствовать о взаимосвязи, которой на самом деле нет или, наоборот, не в состоянии выявить связь, когда она есть. Одним из альтернативных методов обработки, обеспечивающих более надежные и устойчивые оценки, явились специальные приемы и алгоритмы [Гублер, 1978; Хьюбер, 1984], также основанные на анализе частот или интервальных средних.

В главе 6, наряду с критериями оценки связей в таблицах сопряженности, описывается несколько внешне непохожих подходов к статистической обработке данных, объединенных одной общей идеей интервальной математики: анализ корреляционных отношений, прямой градиентный анализ, метод сравнения выборок, основанный на использовании информационной меры Кульбака и детерминационный анализ. С точки зрения математической статистики такой подход наименее требователен к распределению данных и основывается лишь на предпосылке независимости наблюдений.

Задачи о классификациях: отношения сходства и порядка многомерных объектов

От выборок, являвшихся предметом предыдущего изложения и представляющих вариационные ряды (векторы) отдельных показателей, перейдем к моделям многомерного пространства (матрицам наблюдений). Введем первоначально такие понятия, как “объект” и “признак”. Под “объектами” (от лат. objectum) будем подразумевать конкретные предметы исследования, в первую очередь, те точки наблюдений i = 1,2,…,n, где были взяты гидробиологические пробы. “ПризнакXij (синонимы – свойство, переменная, характеристика; англ. variable – переменная) – представляет собой конкретное свойство j объекта i, j = 1,2,…,m, которое может быть выражено в шкале произвольного характера.

Цель статистического моделирования в гидробиологии часто сводится к классификации: на некотором подмножестве выборок ищутся новые ассоциативные или группирующие отношения, связывающие объекты (кластерный анализ) или показатели (факторный анализ).

Как отмечалось выше, операции по упорядочиванию гидробиологических объектов и математическому моделированию экологических сообществ разного масштаба и структуры осуществляются на фоне углубления понятия об экосистеме, как пространственно-временном континууме. Вопрос о соотношении непрерывности и дискретности экосистем не может быть решен без уточнения понятия "однородный", т.к. абсолютной однородности видовой структуры быть не может и вероятность точного повторения пространственного рисунка из одних и тех же видов приближается к нулю. Однако, если измерять однородность реальными рамками масштаба принятых в гидробиологии таксономических единиц, то повторение одних и тех же более или менее сцепленных замещающих друг друга видов не является редкостью.

В любой научной деятельности классификация является одной из фундаментальных составляющих, без которой невозможны построение и проверка научных гипотез и теорий. В качестве метода типологического анализа наиболее широко в настоящее время используется кластерный анализ – это обобщенное название достаточно большого набора алгоритмов, используемых при создании классификации. Сам термин “кластерный анализ” впервые был предложен Р. Трионом [Tryon, 1939], а слово "cluster" переводится с английского языка как "гроздь, кисть, пучок, группа" (по этой причине первое время этот вид анализа называли "гроздевым анализом"). К настоящему времени эта область математики переживает бум популярности: по приблизительным оценкам специалистов число публикаций по кластерному анализу и его приложениям в различных областях знания удваивается каждые три года.

Первые работы, в которых упоминались кластерные методы, появились достаточно давно. Польский антрополог К. Чекановский в 1911 г. предложил стратегию "структурной классификации", основанную на фундаментальной идее кластерного анализа – выделении компактных групп объектов. В начале прошлого века отечественный биометр П.В. Терентьев [1925; цит. по: 1959] разработал так называемый "метод корреляционных плеяд", предназначенный для группировки коррелирующих признаков. Этот метод дал толчок развитию методов группировки с помощью графов. В начале 50-х годов появились публикации Р. Люиса, Е. Фикса и Дж. Ходжеса по иерархическим алгоритмам кластерного анализа и работы Р. Розенблатта по распознающему устройству (персептрону), положившие начало развитию теории "распознавания образов без учителя".

Теоретическим введением в использование методов кластеризации в биологии явилась книга "Принципы численной таксономии", опубликованная двумя биологами – Р. Сокэлом и П. Снитом [Sokal, Sneath, 1963]. Авторы этой книги исходили из того, что для создания эффективных биологических классификаций процедура кластеризации должна обеспечивать использование всевозможных показателей, характеризующих исследуемые экосистемы, производить оценку степени сходства между отдельными организмами и обеспечивать размещение схожих объектов в одну и ту же группу. При этом сформированные группы должны быть достаточно "локальны", т.е. сходство объектов (организмов) внутри групп должно превосходить сходство групп между собой. Последующий анализ выделенных группировок, по мнению авторов, может выяснить, отвечают ли эти группы разным биологическим видам. Иными словами, Сокэл и Снит предполагали, что выявление структуры распределения объектов в группы помогает установить процесс образования этих структур. А различие и сходство организмов разных кластеров (групп) могут служить базой для осмысления происходившего эволюционного процесса и выяснения его механизма.

Определение кластерного анализа дано, например, в последнем издании "Статистического словаря" [1989]: “Кластерный анализ – совокупность математических методов, предназначенных для формирования относительно "отдаленных" друг от друга групп "близких" между собой объектов по информации о расстояниях или связях (мерах близости) между ними. По смыслу аналогичен терминам: автоматическая классификация, разбиение, группировка, таксономия, распознавание образов без учителя”.

Задача выделения групп однородных гидробиологических объектов в общем виде достаточно сложна. Под кластером обычно понимается группа объектов [Дидэ, 1985], обладающих свойством метрической близости ("сходности"): плотность объектов внутри кластера больше, чем вне его. Однако данное определение не является строгим (строгого определения не существует вообще): можно лишь вербально описать кластер, указав некоторые его характерные свойства, допускающие субъективное толкование. Не представляет труда интуитивно верно разделить совокупность компактных и дискретных групп, характеризующихся малыми расстояниями между членами одной группы и большими расстояниями между членами разных групп. Но такие случаи в гидробиологической практике достаточно редки; чаще всего сообщества гидробионтов образуют непрерывный и стохастически варьируемый континуум без сколько-нибудь резких границ между биоценозами.

Другой проблемой кластерного анализа является его собственная методологическая "рыхлость", выраженная в отсутствие единого подхода и стратегии. Всегда приходится сознавать, что полученный при использовании кластерного анализа результат является одним из возможных, причем отсутствуют строгие математические методы его сравнения с аналогичными результатами, полученными с применением других комбинаций метрик, алгоритмов объединения и т.д. Поэтому убедиться самому и убедить своих оппонентов, что данный результат является оптимальным, возможно лишь в тех редких случаях, когда найденная классификация не только что-то "объясняет", но имеет и предсказывающую способность [Леонов, URLв]. Любой класс, ассоциация, кластер, полученный по технологии "без учителя" и состоящий из некоторого подмножества реальных объектов – всегда некоторая умозрительная теоретическая конструкция, которую принципиально невозможно точно измерить, а, следовательно, оценить качество предсказания или, хотя бы, сформулировать критерии, позволяющие надежно предпочесть одну полученную классификацию другой. Некорректность любых утверждений о том, например, что метод ближней связи с использованием меры сходства по формуле Т. Съёренсена приводит к "лучшей" классификации, чем, предположим, алгоритм П. Макнаутона-Смита на основе взвешенной эвклидовой дистанции, стали очевидными с появлением в 1931 г. знаменитой теоремы К. Гёделя [Нагель, Ньюмен, 1970]. Если не прибегать к точной математической формулировке, суть этой теоремы состоит в том, что всякая формальная логическая теория часто содержит такие утверждения, которые нельзя ни доказать, ни опровергнуть внутренними средствами этой теории. Такие доказательства возможны только с помощью внешнего дополнения или средствами более мощной логической теории. Их в случае кластерного анализа заменяет только человеческий опыт и интуиция, которые, к сожалению, всегда субъективны.

Абсолютное большинство методов кластеризации [Дюран, Оделл, 1980; Классификация и кластер.., 1980; Мандель, 1988] основывается на анализе квадратной и симметричной относительно главной диагонали матрицы коэффициентов сходства (расстояния, сопряженности, корреляции и т.д.). При определении корреляции между признаками сравнивается распределение двух каких-либо видов в определенной серии наблюдений и оценивается, насколько тесно совпадают эти распределения. Определение корреляции между объектами представляет обратную задачу: сравниваются две точки отбора проб и оценивается, насколько тесно совпадает набор их признаков. В кластерном анализе всегда подчеркивалась принципиальная равноправность обоих этих методов, причем вычисление матрицы коэффициентов корреляции размерностью m× m между признаками обозначалась как R-техника, а вычисление корреляции между объектами (матрица n× n) – как Q-техника.

Наиболее часто используются иерархические классификации [Айвазян с соавт., 1974; Жамбю, 1988], которые могут быть представлены в двух основных формах – дерева (фиг. А рис. 2.3) и вложенного множества (фиг. В). Дерево представляет собой специальный вид направленного графа – структуры, состоящей из узлов, связанных дугами. Дерево иерархической классификации обладает следующими свойствами:

 

 

Рис. 2.3. Методы представления результатов классификации (А – дерево, В – вложенное множество)


Визуализация дерева разбиений осуществляется в виде двух специальных графиков:

В справочнике И.П. Гайдышева [2001] показано, что дендрограмма, и дендрит – визуальное отображение одной и той же сущности: по графу легко может быть построена дендрограмма и наоборот.

Многомерный подход основан на предположении, что существует возможность лаконичного объяснения природы анализируемой многокомпонентной структуры [Браверман, Мучник, 1983; Александров, Горский, 1983; Верхаген с соавт., 1985]. Это означает, что есть небольшое число определяющих факторов, с помощью которых могут быть достаточно точно описаны как наблюдаемые характеристики анализируемых состояний, так и характер связей между ними [Ким с соавт., 1989]. Иногда эти факторы могут оказаться в явном виде среди исследуемых признаков, но чаще всего оказываются латентными или скрытыми. Сжатое (редуцированное) представление исходных данных в виде матрицы F с меньшим числом переменных p (m > p) без существенной потери информации, содержащейся в исходной матрице X, является сущностью таких важнейших методов снижения размерности, как факторный анализ, многомерное шкалирование, метод главных компонент, целенаправленное проецирование [Ватанабе, 1969; Харман, 1972; Дубров, 1978; Терехина, 1986; Краскел, 1986; Дэйвисон, 1988; Ципилева, 1989]. Эти методы применяются при решении следующих задач:

С общетеоретических позиций кластерный анализ также является своеобразным методом снижения размерности, выполняемый в пространстве объектов. Определены [Попечителев, Романов, 1985] основные требования, которые являются определяющими для выбора метода снижения размерности: взаимная некоррелированность, наименьшие искажения структуры моделируемых данных, наибольшая надежность правильного разбиения исходной выборки на естественные группы и т.д.

Дальше К следующему разделу Назад К предыдующему разделу Начало К началу разделу Конец К концу разделу Список К оглавлению