Содержание

Data Mining

Интеллектуальный анализ данных, глубинный анализ данных, до́быча данных.

Big data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it.

Dan Ariely, Duke University

То же самое можно сказать и про Data Mining.

Определить, что такое Data Mining лучше всего апофатически, т.е. через отрицание (чем Data Mining не является):

  • Data Mining — это не статистика, параметрическая или непараметрическая, сколь бы изощренной она не была. В этом смысле, к Data Mining'у не относятся ни описательная статистика, ни обобщенный метод моментов, ни модели множественного выбора, ни анализ временных рядов методом автокорреляции и распределенного лага (ADL), ни анализ ссылок (связей). Хотя во всех вышеприведенных случаях могут использоваться элементы Data Mining'а: решение задачи классификации и группировки переменных до применения непосредственно математико-статистических методов, кластеризация для корректного применения.
  • Data Mining — это не применение программирования к статистике. Прежде всего потому что, любая исследовательская задача, оперирующая количественными данными, по определению должна решаться с использованием того или иного программного средства (от VBA до UNIX Stat). Если кто-то говорит о себе как о статистике и при этом щелкает по меню Excel'я, то бейте его руками, ногами и арматурой, гоните в шею, режьте на ломти: это не аналитик, а продукт пищеварения высших млекопитающих. Во-вторых, применение тех или иных программных продуктов не является залогом того, что исследование проводится в русле Data Mining. Можно NoSQL с Julia решать не-Data-Mining-задачи, а можно в R с подключенным SQL-модулем реализовывать Data Mining.
  • Data Mining — это не задачи для Big Data. Задачи Big Data могут решаться и не-Data-Mining методами (например NP-полные задачи оптимизации). А в не-Big-Data вполне могут использоваться и Data-Mining-методы. Однако, нужно отметить, что в большинстве случаем Data Mining является наиболее подходящим (наименее не подходящим) инструментом работы с Big Data.

Резюме: Data Mining — это когда мы не знаем, что ищем, но предполагаем, что что-то найти можно.

Научно: нет априорных предположений о характерах зависимости между переменными и даже о наличии таких зависимостией.

Data Mining сегодня в подавляющем большинстве случаев — это мистификация, которая предназначена для целей пиара и выкачки денег под громкое и интересно звучащее название. В этом смысле, Data Mining — достойный правоприемник и продолжатель такой, например, концепции, как искусственный интеллект.

Реальные же задачи, решаемые Data Mining (например, проектированние экспертных систем, интеллектуальное управление, глубокая аналитика на сверхбольших выборках, где не работают стандартные методы математической статистики, исследование заболеваний с невыявленным патогенезом) — редчайшие исключения из общего правила.