К сожалению, разница между этими областями в значительной степени заключается в том, где их преподают: статистика основана на математических курсах, ai, машинном обучении на факультетах информатики и более интеллектуальном анализе данных (используется бизнесом или маркетинговыми отделами, разработанными компаниями-разработчиками программного обеспечения). ,
Во-первых, ИИ (хотя это может означать любую интеллектуальную систему) традиционно подразумевал логические подходы (например, экспертные системы), а не статистическую оценку. Статистика, основанная на математических курсах, обладает очень хорошим теоретическим пониманием, вместе с большим прикладным опытом в экспериментальных науках, где существует четкая научная модель, и статистика необходима для того, чтобы иметь дело с ограниченными экспериментальными данными. В центре внимания часто было получение максимальной информации из очень маленьких наборов данных. кроме того, существует склонность к математическим доказательствам: вы не будете опубликованы, если не сможете доказать что-то о своем подходе. Это, как правило, означает, что статистика отстает в использовании компьютеров для автоматизации анализа. Очередной раз, Недостаток знаний в области программирования не позволяет статистикам работать над крупномасштабными проблемами, где вычислительные проблемы становятся важными (рассмотрим графические процессоры и распределенные системы, такие как hadoop). Я считаю, что такие области, как биоинформатика, в настоящее время в большей степени продвигают статистику в этом направлении. Наконец, я бы сказал, что статистики - это более скептически настроенная группа: они не утверждают, что вы открываете знания с помощью статистики, - скорее ученый выдвигает гипотезу, и задача статистика состоит в том, чтобы проверить, подтверждают ли гипотезу данные. Машинному обучению преподают в отделах CS, которые, к сожалению, не преподают соответствующую математику: исчисление многовариантности, вероятности, статистика и оптимизация не являются обычным явлением ... у кого-то есть смутные "гламурные" концепции, такие как обучение на примерах ...Элементы статистического обучения стр. 30, Это, как правило, означает, что теоретического понимания и развития алгоритмов очень мало, поскольку исследователи всегда могут найти какой-либо набор данных, в котором их алгоритм окажется лучше. Таким образом, есть огромные фазы ажиотажа, когда исследователи ML преследуют следующую большую вещь: нейронные сети, глубокое обучение и т. Д. К сожалению, в отделах CS гораздо больше денег (например, Google, Microsoft, вместе с более «рыночным» обучением), поэтому более скептические статистики игнорируются. Наконец, есть эмпирическая склонность: в основном, существует базовое убеждение, что если вы бросите достаточно данных в алгоритм, он «выучит» правильные предсказания. Хотя я склонен к ML, в ML есть фундаментальное понимание, которое статистики игнорируют: компьютеры могут революционизировать применение статистики.
Есть два способа: а) автоматизировать применение стандартных тестов и моделей. Например, запуск ряда моделей (линейная регрессия, случайные леса и т. Д., Пробование различных комбинаций входов, настройки параметров и т. Д.). На самом деле этого не произошло, хотя я подозреваю, что конкуренты на kaggle разрабатывают свои собственные методы автоматизации. б) применение стандартных статистических моделей к огромным данным: подумайте, например, о гугл-переводчике, рекомендательных системах и т. д. (никто не утверждает, что, например, люди переводят или рекомендуют подобным образом ... но это полезный инструмент). Базовые статистические модели просты, но при применении этих методов к миллиардам точек данных возникают огромные вычислительные проблемы.
Интеллектуальный анализ данных является кульминацией этой философии ... разработка автоматизированных способов извлечения знаний из данных. Тем не менее, он имеет более практический подход: по существу он применяется к поведенческим данным, где нет всеобъемлющей научной теории (маркетинг, обнаружение мошенничества, спам и т. Д.), И цель состоит в том, чтобы автоматизировать анализ больших объемов данных: без сомнения, a Команда статистиков могла бы производить более качественные анализы при достаточном времени, но использование компьютера более экономически эффективно. Кроме того, как объясняет Д. Хэнд, это анализ вторичных данных - данных, которые в любом случае регистрируются, а не данных, которые были явно собраны, чтобы ответить на научный вопрос в твердом экспериментальном плане. Статистика сбора данных и многое другое, D Hand
Итак, я хотел бы резюмировать, что традиционный ИИ основан на логике, а не статистике, машинное обучение - это статистика без теории, а статистика - это «статистика без компьютеров», а анализ данных - это разработка автоматизированных инструментов для статистического анализа с минимальным вмешательством пользователя.