Для статистиков важно изучать машинное обучение?


22

Является ли машинное обучение важным предметом, с которым любой статистик может познакомиться? Кажется, машинное обучение - это статистика. Почему программы статистики (бакалавриат и магистратура) не требуют машинного обучения?



2
Не знаю, но я уверен, что все, кто занимается машинным обучением, должны изучать статистику.
Дейв

Ответы:


18

Машинное обучение - это специализированная область многомерной прикладной статистики. Это также требует значительного опыта программирования, который не является необходимым для хорошей количественной программы, особенно на уровне бакалавриата, но также и в некоторой степени на уровне выпускника. Он имеет отношение только к прогнозному аспекту статистики, в то время как математическая статистика, а также логическая и описательная прикладная статистика требуют внимания. Многие программы предлагают учащимся возможность в значительной степени познакомиться с машинным обучением (например, CMU), но отраслевые статистики в целом редко получают возможность применять эти инструменты, за исключением определенных высокотехнологичных рабочих мест.

В то время как я недавно видел много ученых данных и машинного обучения позиции на рынке труда, я думаю , что общее описание работы в «статисте» не требует машинного обучения фона, но это требует безупречного понимания основных статистических данных, вывода и связи: это действительно должно быть ядром программы статистики выпускников. Машинное обучение и наука о данных также относительно новы как должности и дисциплины. Те, кто ищет работу в качестве статистиков, могут оказать плохую услугу, чтобы склонить свои стратегии решения проблем к машинному обучению, если его в основном бросают в бизнесе / фармацевтике / бионауке из-за недостаточной эффективности через 10 или 20 лет.

Наконец, я не чувствую, что машинное обучение значительно улучшает понимание статистики. Статистика в основном является междисциплинарной областью, и важно общаться и убеждать нетехнических экспертов в вашей области (например, врачей, финансовых директоров или администраторов), в чем именно вы выбрали методологию, которую выбрали. Машинное обучение является такой нишевой, высокотехнологичной областью, которая во многих прикладных практиках только обещает постепенно лучшую производительность, чем стандартные инструменты и методы. Многие из методов в контролируемом и неконтролируемом обучении воспринимаются неспециалистами (и даже некоторыми менее подготовленными экспертами) как «черный ящик». Когда их просят отстаивать свой выбор конкретного метода обучения, есть объяснения, которые не срабатывают и не опираются ни на одну из причин, мотивирующих проблему.


1
Не могли бы вы объяснить немного подробнее, что именно вы имеете в виду, когда объяснения не сработали (примеры могут быть?)?
cbeleites поддерживает Монику

10
Я не могу описать различия между линейным дискриминантным анализом, машинами опорных векторов и GLM LASSO так, чтобы это имело смысл для врача. Поэтому я построил модель логистической регрессии для прогнозирования риска рака молочной железы, используя несколько тщательно откорректированных ковариат. Когда их представили, врачи сразу же приступили к содержательной дискуссии об их величине эффекта. Различение моей «научной» модели было очень сравнимо с более сложными методами ML (перекрывающиеся 90% CI для AUC, основанные на начальной загрузке в проверочной выборке), и я не единственный с таким отчетом о случаях!
AdamO

4
@cbeleites, тебе когда-нибудь приходилось общаться с серьезным человеком, обладающим в лучшем случае знаниями математики в колледже? SVM не дает величины эффекта в терминах, понятных докторам; ширина поля для них не имеет смысла, в отличие от странных соотношений, к которым они очень привыкли. Если вы не можете говорить на языке клиента, они не будут тратить свое время и деньги на вас.
StasK

2
@GraemeWalsh фантастическая точка. Я сильно борюсь с концепцией использования сложных прогностических моделей для прогнозирующего вывода, как это часто бывает в моделировании структурных уравнений или одноименной причинности Грейнджера. Я думаю, что в этой области еще предстоит проделать большую работу. Например, я интуитивно осознаю большое сходство между полупараметрическим моделированием и маргинальными структурными моделями, но не уверен, где лежат различия.
AdamO

2
@Пожалуйста, ознакомьтесь с приглашением от победителей конкурса Netflix. Их отчеты были очень похожи, даже несмотря на то, что Байесовская модель усредняла бегущие задние веса на большом пространстве моделей, они заметили, что Pca, по-видимому, имел доминирующий задний вес при всех условиях. Это не значит, что они эквивалентны, но есть компромисс между простотой и точностью, который заставляет меня отдавать предпочтение более простым моделям, чем те, что предлагает ML Arena. Можно аналогичным образом подумать о том, как сложные параметрические модели работают так же, как непараметрические.
AdamO

14

Хорошо, давайте поговорим о статистическом слоне с завязанными глазами от того, что мы узнали от одного или двух человек, с которыми мы тесно сотрудничали в наших программах градаций ...

Программы Stat требуют того, что они считают нужным, то есть, что является самым важным, что они хотят, чтобы их студенты изучали, учитывая ограниченное количество времени, которое студенты будут иметь в программе. Требование одной узкой области означает поцелуй на прощание с некоторыми другими областями, которые можно считать одинаково важными. Некоторые программы требуют измерения теоретической вероятности, некоторые нет. Некоторые требуют иностранного языка, но большинство программ не делают. Некоторые программы принимают байесовскую парадигму как единственное, что стоит изучать, но большинство этого не делают. Некоторые программы знают, что наибольший спрос на статистиков приходится на статистику опросов (по крайней мере, в США), но большинство этого не делают. Программы Biostat следуют за деньгами и обучают SAS + методам, которые легко продаются медицинским и фармацевтическим наукам.

Для человека, разрабатывающего сельскохозяйственные эксперименты, или собирающего данные опросов с помощью телефонных опросов, или проверяющего психометрические шкалы, или создающего карты заболеваемости в ГИС, машинное обучение является абстрактным искусством информатики, очень далеким от статистики, с которой они работают ежедневно. основа. Никто из этих людей не увидит немедленной выгоды от обучения опорным векторным машинам или случайным лесам.

В общем, машинное обучение является хорошим дополнением к другим областям статистики, но я бы сказал, что на первом месте должны быть такие основные вещи, как многомерное нормальное распределение и обобщенные линейные модели.


5

Машинное обучение - это получение знаний / изучение данных. Например, я работаю с алгоритмами машинного обучения, которые могут выбрать несколько генов, которые могут быть вовлечены в конкретный тип заболевания, из данных ДНК-микрочипов (например, рака или диабета). Затем ученые могут использовать эти гены (изученные модели) для ранней диагностики в будущем (классификация невидимых образцов).

В машинном обучении задействовано много статистики, но есть отрасли машинного обучения, которые не требуют статистики (например, генетическое программирование). В этих случаях вам понадобится только статистика, чтобы увидеть, статистически значительно отличается модель, построенная вами с помощью машинного обучения, от какой-либо другой модели.

На мой взгляд, введение в машинное обучение для статистиков было бы полезно . Это поможет статистикам увидеть реальные сценарии применения статистики. Однако это не должно быть обязательным . Вы можете стать успешным статистиком и потратить всю свою жизнь, даже не прибегая к машинному обучению!


2
Я бы сказал, что вам нужна статистика каждый раз, когда вы сообщаете о производительности вашей модели. Это связано с тем, что моя профессия - аналитическая химия, где одно из важных правил - «число без доверительного интервала не является результатом».
cbeleites поддерживает Монику

1
@cbeleites Я согласен с тобой. Я имел в виду, что статистики не обязательно должны быть экспертами в области машинного обучения! Они могут обойтись без машинного обучения :)
Revolusions

1
@cbeleites, или несколько доверительных интервалов в случае мультимодальных оценщиков (например, Sivia & Skilling Data Analysis ).
alancalvitti
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.