Интеллектуальный анализ данных классифицируется как описательный или прогнозирующий. Описательный интеллектуальный анализ данных заключается в поиске массивных наборов данных и обнаружении местоположений неожиданных структур или взаимосвязей, моделей, тенденций, кластеров и выбросов в данных. С другой стороны, Predictive предназначен для построения моделей и процедур для задач регрессии, классификации, распознавания образов или машинного обучения и оценки точности прогнозирования этих моделей и процедур применительно к свежим данным.
Механизм, используемый для поиска шаблонов или структуры в многомерных данных, может быть ручным или автоматическим; Для поиска может потребоваться интерактивный запрос к системе управления базами данных или использование программного обеспечения для визуализации для выявления аномалий в данных. В терминах машинного обучения описательный интеллектуальный анализ данных известен как обучение без учителя, тогда как интеллектуальный интеллектуальный анализ данных известен как контролируемое обучение.
Большинство методов, используемых в интеллектуальном анализе данных, связаны с методами, разработанными в статистике и машинном обучении. Основными среди этих методов являются общие темы регрессии, классификации, кластеризации и визуализации. Из-за огромных размеров наборов данных многие приложения интеллектуального анализа данных фокусируются на методах уменьшения размерности (например, выбор переменных) и ситуациях, в которых предполагается, что данные большого размера лежат на гиперплоскостях меньшего размера. В последнее время внимание было направлено на методы идентификации многомерных данных, лежащих на нелинейных поверхностях или многообразиях.
Существуют также ситуации при извлечении данных, когда статистический вывод - в его классическом смысле - либо не имеет смысла, либо имеет сомнительную обоснованность: первый возникает, когда у нас есть все население для поиска ответов, а второй - когда набор данных является «Удобная» выборка, а не случайная выборка, взятая из некоторой большой популяции. Когда данные собираются во времени (например, розничные операции, операции на фондовом рынке, записи о пациентах, данные о погоде), выборка также может не иметь смысла; упорядочение по времени наблюдений имеет решающее значение для понимания явления, порождающего данные, и для того, чтобы рассматривать наблюдения как независимые, когда они могут быть сильно коррелированными, будет давать необъективные результаты.
Центральными компонентами интеллектуального анализа данных - помимо статистической теории и методов - вычислительная и вычислительная эффективность, автоматическая обработка данных, методы динамической и интерактивной визуализации данных и разработка алгоритмов.
Одним из наиболее важных вопросов в области интеллектуального анализа данных является вычислительная проблема масштабируемости . Алгоритмы, разработанные для вычисления стандартных исследовательских и подтверждающих статистических методов, были разработаны, чтобы быть быстрыми и вычислительно эффективными при применении к малым и средним наборам данных; тем не менее, было показано, что большинство этих алгоритмов не справляются с задачей обработки огромных наборов данных. По мере роста наборов данных многие существующие алгоритмы демонстрируют тенденцию к резкому замедлению (или даже прекращению работы).