Технологии анализа данных

Преподаватель - Нестеренко Виктор Александрович

Содержание дисциплины

Раздел 1. Введение. Постановка задачи и Data Mining. Интеллектуальный анализ данных. Понятие данных. Пространство признаков данных, элемент пространства, метрика в пространстве признаков. Классификация, регрессия, ассоциации, кластерный анализ, деревья решений - основные методы анализа данных. Визуализация данных.

Раздел 2. R - язык программирования ориентированный на обработку и графическое представление данных. Основы языка и примеры его использования.

Раздел 3. Классификация и регрессия. Задача классификации. Разделение характеристик событий на классовые признаки и атрибуты. Классификатор – средство построения набора правил для разделения событий на классы. Оценка качества классификации.

Раздел 4. Кластеризация данных. Основные алгоритмы кластеризации. Иерархические алгоритмы: объединительная (агломеративная) и разделительная (дивизимная) кластеризация. Неиерархическая кластеризация: метод k-средних, нечёткая кластеризация (алгоритм fuzzy). Методы оценки качества кластеризации. Использование кластеризации данных в задачах распознавания изображений.

Раздел 5. Ассоциации. Поиск ассоциативных правил. Обобщённые ассоциативные правила. Apriori - алгоритм поиска ассоциативных правил. Пример анализа рыночной корзины.

Раздел 6. Анализ текстовой информации. Области применения. Классификация текстов. Формализация задачи. Кластеризация текстовых документов. Аннотирование текстов. Методы построения классификаторов. Оценка эффективности результатов анализа.

Раздел 7. Визуализация данных. Редукция размерности пространства признаков данных. Многомерное шкалирование. Метод главных компонент. Модель факторного анализа. Пример: графическое представление частотных словарей текстов.

АННОТАЦИЯ (pdf)