В целом, делать вывод более сложно, чем делать прогноз?


13

Мой вопрос исходит из следующего факта. Я читал посты, блоги, лекции, а также книги по машинному обучению. У меня сложилось впечатление, что специалисты по машинному обучению кажутся безразличными ко многим вещам, которые волнуют статистиков / эконометрики. В частности, практики машинного обучения подчеркивают точность прогноза, а не умозаключения.

Один такой пример произошел, когда я брал у Эндрю Нг машинное обучение на Coursera. Обсуждая Простую Линейную Модель, он ничего не упоминал о СИНЕМ свойстве оценок или о том, как гетероскедастичность «аннулирует» доверительный интервал. Вместо этого он фокусируется на реализации градиентного спуска и концепции перекрестной проверки / кривой ROC. Эти темы не освещались в моих классах по эконометрике и статистике.

Другой пример произошел, когда я участвовал в соревнованиях Kaggle. Я читал чужой код и мысли. Большая часть участников просто бросает все в SVM / random forest / XGBoost.

Еще один пример - пошаговый выбор модели. Эта техника широко используется, по крайней мере, онлайн и на Kaggle. Об этом также рассказывают многие классические учебники по машинному обучению, такие как Введение в статистическое обучение. Однако, согласно этому ответу (что вполне убедительно), поэтапный выбор модели сталкивается с множеством проблем, особенно когда дело доходит до «обнаружения истинной модели». Кажется, что есть только две возможности: либо специалисты по машинному обучению не знают проблемы с пошаговым, либо они знают, но им все равно.

Итак, вот мои вопросы:

  1. Правда ли, что (в общем) практики машинного обучения фокусируются на прогнозировании и, следовательно, не заботятся о многих вещах, которые волнуют статистиков / экономистов?
  2. Если это правда, то в чем причина? Не потому ли, что в каком-то смысле вывод сложнее?
  3. Есть много материалов по машинному обучению (или прогнозированию) онлайн. Однако, если я заинтересован в том, чтобы узнать о том, как делать выводы, с какими онлайн-ресурсами я могу ознакомиться?

Обновление : я только что понял, что слово «вывод» потенциально может означать много вещей. То, что я имел в виду под «выводом», относится к таким вопросам, как

  1. Ли причиной или причиной ? Или, в целом, каковы причинно-следственные связи между ?XYYXX1,X2,,Xn

  2. Поскольку «все модели не правы», насколько «не прав» наша модель от настоящей модели?

  3. Учитывая информацию выборки, что мы можем сказать о населении и насколько уверенно мы можем это сказать?

Из-за моего очень ограниченного знания статистики, я даже не уверен, попадают ли эти вопросы в область статистики или нет. Но это те вопросы, которые практикующим машинному обучению, похоже, не нужны. Возможно, статистикам пофиг ни того, ни другого? Я не знаю.


2
Brian D Ripley цитируется на useR! 2004 с «Перефразирующе перефразируя, машинное обучение - это статистика без всякой проверки моделей и предположений». Фраза стала частью fortunesпакета на CRAN. Это просто сказать, что вы не одиноки с Впечатлением, что математическая строгость не всегда является главной проблемой в машинном обучении.
Бернхард

Лео Брейман как раз и решает этот вопрос в своей статье 2001 года «Статистическое моделирование: две культуры» , которая отлично читается.
скд

Ответы:


6

Во-первых, у меня была бы другая перспектива для машинного обучения. То, что вы упомянули, лекция Эндрю Нга Coursera и конкурс Kaggle - это не 100% машинное обучение, а некоторые отрасли, ориентированные на практическое применение. Реальное исследование машинного обучения должно быть работой, которая изобретает модель случайного леса / SVM / повышения градиента, которая довольно близка к статистике / математике.

Я бы согласился, что специалисты по машинному обучению уделяют больше внимания точности по сравнению со статистиками / экономистами. Есть причины, по которым люди заинтересованы в получении большей точности, а не в «выводе об истинном распределении». Основная причина заключается в том, что методы сбора и использования данных изменились за последние десятилетия.

Статистика была создана за сто лет, но в прошлом никто не думал о том, что у вас есть миллиарды данных для обучения и другие миллиарды данных для тестирования. (Например, количество изображений в интернете). Следовательно, при относительно небольшом объеме данных для выполнения работы необходимы предположения из области знаний. Или вы можете подумать о «регуляризации» модели. После того, как были сделаны предположения, возникли проблемы с «истинным» распределением.

Однако, если мы тщательно об этом подумаем, можем ли мы удостовериться, что эти предположения верны, и выводы верны? Я хотел бы привести слова Джорджа Бокса:

Все модели ошибочны, но некоторые полезны

Теперь давайте вернемся к практическому подходу, чтобы сделать больший упор на точность, чем предположение / умозаключение. Это хороший подход, когда у нас огромное количество данных.

Предположим, мы строим модель для всех изображений, содержащих человеческие лица на уровне пикселей. Во-первых, очень трудно предложить допущения на уровне пикселей для миллиарда изображений: никто не обладает знаниями в этой области. Во-вторых, мы можем подумать обо всех возможных способах подгонки данных, и поскольку данные огромны, всех имеющихся у нас моделей может быть недостаточно (их почти невозможно переопределить).

Именно поэтому «глубокое обучение / нейронная сеть» снова стали популярными. В условиях больших данных мы можем выбрать одну действительно сложную модель и подобрать ее как можно лучше, и у нас все еще может быть все в порядке, потому что наши вычислительные ресурсы ограничены по сравнению со всеми реальными данными в слове.

Наконец, если построенная нами модель хороша в огромном наборе данных тестирования, то они хороши и ценны, хотя мы можем не знать допущения подчеркивания или истинного распределения.


Я хочу отметить, что слово «вывод» имеет разные значения в разных сообществах.

  • В статистическом сообществе это обычно означает получение информации об истинном распределении параметрическим или непараметрическим способом.
  • В сообществе машинного обучения это обычно означает вычисление определенных вероятностей из данного распределения. См. Murphy's Graphical Models Tutorial для примеров.
  • В машинном обучении люди используют слово «обучение» для обозначения «получения параметров истинного распределения», что аналогично «выводу» в статистическом сообществе.

Таким образом, вы можете видеть, по сути, многие люди в машинном обучении также делают «выводы».

Кроме того, вы также можете подумать о людях в академических кругах, которым нравится «переименовывать свою работу и перепродавать»: придумывание новых терминов может быть полезным для демонстрации новизны исследования. На самом деле, существует много совпадений между искусственным интеллектом, интеллектуальным анализом данных и машинным обучением. И они тесно связаны со статистикой и дизайном алгоритмов. Опять же, нет никаких четких границ для того, чтобы делать «вывод» или нет.


3
Я вижу, откуда ты. Альтернативный вариант может быть следующим: прогноз = фокус на наблюдаемых переменных, логический вывод = фокус на скрытых переменных. Таким образом, в каком-то смысле логический вывод пытается произвести новые типы измерений, в то время как предсказание больше касается новых реализаций измерений, которые в принципе можно наблюдать? (Конечно, это согласуется с вашим ответом)
GeoMatt22 13.09.16
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.