Является ли машинное обучение важным предметом, с которым любой статистик может познакомиться? Кажется, машинное обучение - это статистика. Почему программы статистики (бакалавриат и магистратура) не требуют машинного обучения?
Является ли машинное обучение важным предметом, с которым любой статистик может познакомиться? Кажется, машинное обучение - это статистика. Почему программы статистики (бакалавриат и магистратура) не требуют машинного обучения?
Ответы:
Машинное обучение - это специализированная область многомерной прикладной статистики. Это также требует значительного опыта программирования, который не является необходимым для хорошей количественной программы, особенно на уровне бакалавриата, но также и в некоторой степени на уровне выпускника. Он имеет отношение только к прогнозному аспекту статистики, в то время как математическая статистика, а также логическая и описательная прикладная статистика требуют внимания. Многие программы предлагают учащимся возможность в значительной степени познакомиться с машинным обучением (например, CMU), но отраслевые статистики в целом редко получают возможность применять эти инструменты, за исключением определенных высокотехнологичных рабочих мест.
В то время как я недавно видел много ученых данных и машинного обучения позиции на рынке труда, я думаю , что общее описание работы в «статисте» не требует машинного обучения фона, но это требует безупречного понимания основных статистических данных, вывода и связи: это действительно должно быть ядром программы статистики выпускников. Машинное обучение и наука о данных также относительно новы как должности и дисциплины. Те, кто ищет работу в качестве статистиков, могут оказать плохую услугу, чтобы склонить свои стратегии решения проблем к машинному обучению, если его в основном бросают в бизнесе / фармацевтике / бионауке из-за недостаточной эффективности через 10 или 20 лет.
Наконец, я не чувствую, что машинное обучение значительно улучшает понимание статистики. Статистика в основном является междисциплинарной областью, и важно общаться и убеждать нетехнических экспертов в вашей области (например, врачей, финансовых директоров или администраторов), в чем именно вы выбрали методологию, которую выбрали. Машинное обучение является такой нишевой, высокотехнологичной областью, которая во многих прикладных практиках только обещает постепенно лучшую производительность, чем стандартные инструменты и методы. Многие из методов в контролируемом и неконтролируемом обучении воспринимаются неспециалистами (и даже некоторыми менее подготовленными экспертами) как «черный ящик». Когда их просят отстаивать свой выбор конкретного метода обучения, есть объяснения, которые не срабатывают и не опираются ни на одну из причин, мотивирующих проблему.
Хорошо, давайте поговорим о статистическом слоне с завязанными глазами от того, что мы узнали от одного или двух человек, с которыми мы тесно сотрудничали в наших программах градаций ...
Программы Stat требуют того, что они считают нужным, то есть, что является самым важным, что они хотят, чтобы их студенты изучали, учитывая ограниченное количество времени, которое студенты будут иметь в программе. Требование одной узкой области означает поцелуй на прощание с некоторыми другими областями, которые можно считать одинаково важными. Некоторые программы требуют измерения теоретической вероятности, некоторые нет. Некоторые требуют иностранного языка, но большинство программ не делают. Некоторые программы принимают байесовскую парадигму как единственное, что стоит изучать, но большинство этого не делают. Некоторые программы знают, что наибольший спрос на статистиков приходится на статистику опросов (по крайней мере, в США), но большинство этого не делают. Программы Biostat следуют за деньгами и обучают SAS + методам, которые легко продаются медицинским и фармацевтическим наукам.
Для человека, разрабатывающего сельскохозяйственные эксперименты, или собирающего данные опросов с помощью телефонных опросов, или проверяющего психометрические шкалы, или создающего карты заболеваемости в ГИС, машинное обучение является абстрактным искусством информатики, очень далеким от статистики, с которой они работают ежедневно. основа. Никто из этих людей не увидит немедленной выгоды от обучения опорным векторным машинам или случайным лесам.
В общем, машинное обучение является хорошим дополнением к другим областям статистики, но я бы сказал, что на первом месте должны быть такие основные вещи, как многомерное нормальное распределение и обобщенные линейные модели.
Машинное обучение - это получение знаний / изучение данных. Например, я работаю с алгоритмами машинного обучения, которые могут выбрать несколько генов, которые могут быть вовлечены в конкретный тип заболевания, из данных ДНК-микрочипов (например, рака или диабета). Затем ученые могут использовать эти гены (изученные модели) для ранней диагностики в будущем (классификация невидимых образцов).
В машинном обучении задействовано много статистики, но есть отрасли машинного обучения, которые не требуют статистики (например, генетическое программирование). В этих случаях вам понадобится только статистика, чтобы увидеть, статистически значительно отличается модель, построенная вами с помощью машинного обучения, от какой-либо другой модели.
На мой взгляд, введение в машинное обучение для статистиков было бы полезно . Это поможет статистикам увидеть реальные сценарии применения статистики. Однако это не должно быть обязательным . Вы можете стать успешным статистиком и потратить всю свою жизнь, даже не прибегая к машинному обучению!