Мой вопрос исходит из следующего факта. Я читал посты, блоги, лекции, а также книги по машинному обучению. У меня сложилось впечатление, что специалисты по машинному обучению кажутся безразличными ко многим вещам, которые волнуют статистиков / эконометрики. В частности, практики машинного обучения подчеркивают точность прогноза, а не умозаключения.
Один такой пример произошел, когда я брал у Эндрю Нг машинное обучение на Coursera. Обсуждая Простую Линейную Модель, он ничего не упоминал о СИНЕМ свойстве оценок или о том, как гетероскедастичность «аннулирует» доверительный интервал. Вместо этого он фокусируется на реализации градиентного спуска и концепции перекрестной проверки / кривой ROC. Эти темы не освещались в моих классах по эконометрике и статистике.
Другой пример произошел, когда я участвовал в соревнованиях Kaggle. Я читал чужой код и мысли. Большая часть участников просто бросает все в SVM / random forest / XGBoost.
Еще один пример - пошаговый выбор модели. Эта техника широко используется, по крайней мере, онлайн и на Kaggle. Об этом также рассказывают многие классические учебники по машинному обучению, такие как Введение в статистическое обучение. Однако, согласно этому ответу (что вполне убедительно), поэтапный выбор модели сталкивается с множеством проблем, особенно когда дело доходит до «обнаружения истинной модели». Кажется, что есть только две возможности: либо специалисты по машинному обучению не знают проблемы с пошаговым, либо они знают, но им все равно.
Итак, вот мои вопросы:
- Правда ли, что (в общем) практики машинного обучения фокусируются на прогнозировании и, следовательно, не заботятся о многих вещах, которые волнуют статистиков / экономистов?
- Если это правда, то в чем причина? Не потому ли, что в каком-то смысле вывод сложнее?
- Есть много материалов по машинному обучению (или прогнозированию) онлайн. Однако, если я заинтересован в том, чтобы узнать о том, как делать выводы, с какими онлайн-ресурсами я могу ознакомиться?
Обновление : я только что понял, что слово «вывод» потенциально может означать много вещей. То, что я имел в виду под «выводом», относится к таким вопросам, как
Ли причиной или причиной ? Или, в целом, каковы причинно-следственные связи между ?
Поскольку «все модели не правы», насколько «не прав» наша модель от настоящей модели?
Учитывая информацию выборки, что мы можем сказать о населении и насколько уверенно мы можем это сказать?
Из-за моего очень ограниченного знания статистики, я даже не уверен, попадают ли эти вопросы в область статистики или нет. Но это те вопросы, которые практикующим машинному обучению, похоже, не нужны. Возможно, статистикам пофиг ни того, ни другого? Я не знаю.
fortunes
пакета на CRAN. Это просто сказать, что вы не одиноки с Впечатлением, что математическая строгость не всегда является главной проблемой в машинном обучении.