© 2004 Электронный журнал "Jahrbuch fur EcoAnalytic und EcoPatologic"
На главную страницу сайта

Сайт наш чаще посещай - будет выше урожай (Лозунг времен Н.С.Хрущева)

На главную страницу сайта

 

Вашему вниманию предлагается новая книга по статистическому анализу данных в среде R.

Библиографическая ссылка:
Шитиков В. К. , Мастицкий С.Э. (2017) Классификация, регрессия и другие алгоритмы Data Mining с использованием R.
- Электронная книга, адрес доступа: https://github.com/ranalytics/data-mining


Описана широкая совокупность методов построения статистических моделей классификации и регрессии для отклика, представленного в альтернативной, категориальной и метрической шкалах наблюдений. Подробно рассматириваются деревья решений, машины опорных векторов с различными разделяющими поверхностями, нелинейные формы дискриминантного анализа, искусственные нейронные сети и т.д. Показана технология применения таких методов бутстреп-агрегирования деревьев решений как бэггинг (bagging), случайный лес (random forrest) и бустинг (boosting). Представлены различные методы построения ансамблей моделей для коллективного прогнозирования. Особое внимание уделяется сравнительной оценке эффективности и поиску оптимальных областей гипер-параметров тестируеных моделей с использованием пакета caret статистической среды R.

Рассматриваются такие алгоритмы Data Mining, как генерация ассоциативных правил и анализ последовательностей. Отдельные главы посвящены методам построения моделей многомерной ординации данных и различным алгоритмам кластерного анализа.

Описание методов статистического анализа неизменно сопровождается иллюстрациями на примерах из различных областей на основе общедоступных исходных данных. Представлены тексты несложных скриптов в кодах R, дающие возможность читателям легко воспроизвести самим технику выполнения расчетов.
Предполагается, что читатель знаком с языком и особенностями работы в статистической среде R. В противном случае - можно порекомендовать, например, книгу Мастицкий С.Э. ,Шитиков В. К. (2014) Статистический анализ и визуализация данных с помощью R.

Книга может быть использована в качестве учебного пособия по статистическим методам для студентов и аспирантов высших учебных заведений.

Материалы книги размещены на репозитарии https://github.com/ranalytics/data-mining , где представлены PDF-файл книги (каталог Book), файлы с данными, необходимыми для воспроизведения приведенных в книге примеров (Data), листинги кода на языке R к каждой главе (Scripts), а также папка со сторонними модулями (Extra_Modules).
Онлайн-версии книги, содержащая все ее главы за исключением приложения, представлена также в виде отдельного сайта по адресу https://ranalytics.github.io/data-mining

Для быстрого скачивания материалы доступны на ресурсе http://www.ievbras.ru/ecostat/Kiril/R/DM , в том числе:
- Текущая версия книги в формате PDF (~6 МБ)- DM_R.pdf;
- Cкрипты R-кода и наборы данных для воспроизведения рассматриваемых в книге примеров - Scripts_data.zip .

Мы будем благодарны за любые ваши замечания и пожелания касательно этой работы.