Делаете правильную статистику в рабочей среде?


20

Я не уверен, к чему относится этот вопрос: перекрестная проверка или рабочее место. Но мой вопрос смутно связан со статистикой.

Этот вопрос (или, я думаю, вопросы) возник во время моей работы в качестве "стажера по науке о данных". Я строил эту модель линейной регрессии и изучал остаточный график. Я видел явные признаки гетероскедастичности. Я помню, что гетероскедастичность искажает многие статистические данные, такие как доверительный интервал и t-критерий. Поэтому я использовал взвешенный метод наименьших квадратов, следуя тому, что я узнал в колледже. Мой менеджер увидел это и посоветовал мне не делать этого, потому что «я все усложнял», что для меня вовсе не было убедительной причиной.

Другим примером будет «удаление пояснительной переменной, поскольку ее значение p незначительно». Быть может, этот совет просто не имеет смысла с логической точки зрения. Согласно тому, что я узнал, незначительное значение p может быть вызвано разными причинами: случайностью, использованием неправильной модели, нарушением предположений и т. Д.

Еще один пример - я использовал перекрестную проверку в k-кратном порядке для оценки своей модели. Согласно результату, просто лучше, чем . Но у нас есть более низкая для модели 1, и причина связана с перехватом . Однако мой руководитель, похоже, предпочитает модель 2, потому что она имеет более высокое . Его причины (такие как убедительны, или перекрестная проверка - это подход машинного обучения, а не статистический подход) просто не кажутся достаточно убедительными, чтобы изменить свое мнение.СВмоdеL1СВмоdеL2р2р2р2

Как человек, который только что закончил колледж, я очень растерялся. Я очень увлечен применением правильной статистики для решения реальных проблем, но я не знаю, что из следующего верно:

  1. Статистика, которую я узнал сама, просто неверна, поэтому я просто делаю ошибки.
  2. Существует огромная разница между теоретической статистикой и построением моделей в компаниях. И хотя теория статистики верна, люди просто не следуют ей.
  3. Менеджер неправильно использует статистику.

Обновление от 17.04.2017: Я решил продолжить работу над кандидатской диссертацией. в статистике. Спасибо всем за ваш ответ.


1
С вашим вопросом связаны комментарии (особенно те, что в конце) ниже этого ответа: stats.stackexchange.com/questions/229193/…

Это обсуждение также может быть актуальным . На практике вы можете иногда использовать модели, в которых ваши данные нарушают некоторые требуемые допущения (например, наивный байесовский метод для зависимых переменных) и все еще дают интересные результаты. Но тогда вы должны быть очень осторожны с выводами, которые вы делаете, и в этом главная проблема: большинство людей просто не заботятся о значении ваших результатов, пока вы получаете результаты. Опубликовать или погибнуть ...
Габорист

1
Ответы «вы правы, а он неправ», вероятно, верны и применимы к вашему делу. В любом случае, знайте, что иногда ответом может быть «он неправ, но его неправильный путь работает для его целей - может быть, он работает даже лучше, чем правильный путь для его нестатистических целей ведения бизнеса». Я думаю, что это часто случается со всеми видами научных знаний, а не только со статистикой. Может быть, в SE Workplace они могут дать вам статистические примеры.
Pere

3
@Aksakal: Из того, что ОП описывает статистически, он, скорее всего, прав. Ваш личный анекдот, это просто анекдот. Я могу противостоять этому, говоря, что я перешел на работу, где A / B-тестирование будет проводиться всего с 30 образцами; Отображение базовых расчетов мощности изменило общее представление команд о размерах выборки и принятии решений. Возвращаясь к вопросу ОП, я согласен с тем, что описанное не означает, что руководитель ОП сделал неправильный вызов. У бизнес-процессов есть особая инерция, связанная с ними, и «новый парень» должен проявить себя как проповедник, прежде чем стать пророком ...
usεr11852 говорит Reinstate Monic

1
@ usεr11852, мой комментарий был напыщенным :), но я думаю, что для новичка в этой области есть смысл предположить, что босс знает лучше. со стажем он может ослабить это предположение, возможно, придать больший вес собственному мнению, а не боссу ». для стажера вес по собственному мнению должен быть близок к нулю.
Аксакал

Ответы:


12

Короче говоря, вы правы, а он неправ. Трагедия анализа данных заключается в том, что многие люди делают это, но только меньшинство людей делает это хорошо, отчасти из-за слабого образования в анализе данных и отчасти из-за апатии. Обратите критическое внимание на большинство опубликованных исследований, в которых нет автора статистики или специалиста по машинному обучению в списке авторов, и вы быстро заметите такие элементарные ошибки, как интерпретация значений как вероятности того, что нулевая гипотеза верна ,п

Я думаю, что единственное, что нужно сделать, когда сталкиваешься с подобной ситуацией, - это тщательно объяснить, что не так с неправильной практикой, на одном или двух примерах.


3
Спасибо за ответ. Я предполагаю, что "вопрос следующего шага", есть ли какая-либо работа, которая действительно исправляет статистику? Я понимаю, что наука о данных очень популярна в наши дни, но почему-то у меня сложилось впечатление, что многим «ученым по данным» на самом деле не
нужны

1
@ Мисаков Я думаю, что это действительно зависит от человека или организации. Но модные слова, такие как «наука о данных», «аналитика» и «бизнес-аналитика» - это красные флаги. И не забывайте, что во время собеседования вы тоже их интервьюируете. Это не просто заставляет вас выглядеть хорошо, чтобы задавать подробные вопросы о том, как все делается; это позволяет увидеть, насколько серьезно они относятся к анализу данных.
Кодиолог

@Misakov Вы, вероятно, должны были бы пойти в академию, если вы действительно хотите делать правильную статистику. Подавляющее большинство (см. Мой ответ выше) промышленного использования будет неправильным.
Mooks

р2

1
@ usεr11852 Хороший (т. е. не заостренный) менеджер будет подчиняться сотрудникам, когда они знают лучше, чем он. «Учитывая, что предприятие все еще существует, решения менеджера не так уж ошибочны » - гонка не такая быстрая.
Кодиолог

11

Кодиолог прав - ты прав, он не прав. Однако, к сожалению, это еще более распространенная проблема, чем то, с чем вы сталкиваетесь. Вы на самом деле в отрасли, которая делает относительно хорошо.

меaN+3*σ

Теперь, кроме того факта, что этот доверительный интервал не говорит им, что им действительно нужно (для этого им нужен интервал допуска), это делается вслепую на параметрах, которые находятся вблизи некоторого максимального или минимального значения (но где интервал выиграл) т на самом деле превышают эти значения). Поскольку Excel рассчитает то, что им нужно (да, я сказал Excel), они устанавливают свои спецификации в соответствии с этим, несмотря на тот факт, что параметр не будет где-то близко нормально распределенным. Этих людей учили основам статистики, а не графикам qq или тому подобным. Одна из самых больших проблем заключается в том, что статистика даст вам номер, даже если используется не по назначению, поэтому большинство людей не знают, когда они это сделали.

Другими словами, спецификации на подавляющее большинство продуктов в подавляющем большинстве отраслей промышленности являются бессмысленными.

Один из худших примеров того, как люди слепо следят за статистикой, без понимания, это использование Cpk в автомобильной промышленности. Одна компания провела около года, споря о продукте со своим поставщиком, потому что они думали, что поставщик может контролировать свой продукт до уровня, который просто невозможен. Они устанавливали только максимальную спецификацию (без минимума) для параметра и использовали Cpk для обоснования своих требований - до тех пор, пока не было указано, что в их вычислениях (при использовании для установки теоретического минимального уровня) они не хотели, чтобы они не проверяли ) подразумевает огромное отрицательное значение. Это при параметре, который никогда не может быть меньше 0. Cpk предполагает нормальный, процесс не дал ничего похожего на нормальные данные. Потребовалось много времени, чтобы это впиталось. Все это потратило время и деньги, потому что люди не Я не понимаю, что они рассчитывали - и могло быть намного хуже, если бы этого не заметили. Это может быть фактором, способствующим регулярному отзыву в автомобильной промышленности!

Я сам родом из науки, и, честно говоря, преподавание статистики в области науки и техники шокирующе недостаточно. Я никогда не слышал о большей части того, что мне нужно использовать сейчас - все это самоучка, и в моих знаниях (по сравнению с настоящим статистиком) есть огромные пробелы даже сейчас. По этой причине я не жалею людей, злоупотребляющих статистикой (я, вероятно, все еще регулярно делаю это), это плохое образование.

Итак, возвращаясь к исходному вопросу, это действительно не так просто. Я бы согласился с рекомендацией Kodiologist, чтобы попытаться мягко объяснить эти вещи, чтобы использовать правильную статистику. Но я хотел бы добавить к этому дополнительное предостережение, а также посоветовать вам выбирать свои сражения с умом ради своей карьеры.

К сожалению, но факт заключается в том, что вы не сможете заставить каждого делать лучшую статистику каждый раз. Выберите, чтобы исправить их, когда это действительно имеет значение для окончательного общего вывода (что иногда означает выполнение действий двумя различными способами проверить). Есть моменты (например, пример вашей модели 1,2), где использование «неправильного» способа может привести к тем же выводам. Старайтесь не исправлять слишком много людей слишком часто.

Я знаю, что это интеллектуально расстраивает, и мир должен работать по-другому - к сожалению, это не так. В какой-то степени вам придется научиться судить о ваших битвах на основе индивидуальных особенностей ваших коллег. Ваша (карьерная) цель - быть экспертом, к которому они обращаются, когда им действительно нужна помощь, а не привередливым человеком, который всегда пытается их исправить. И, на самом деле, если вы станете этим человеком, то, вероятно, вы добьетесь наибольшего успеха, заставив людей слушать и делать все правильно. Удачи.


Excel, пожалуй, наиболее широко используемое программное обеспечение для анализа данных. Не нужно замечание « да, я это сказал! » Если бы кто-то не ушел из академии (и, возможно, крупной фармации), он бы не бросил взгляд на ваше оригинальное утверждение. (Хороший ответ, +1)
usεr11852 говорит восстановить Monic

1
Это наиболее широко используемый, и я думаю, что это подчеркивает мою первоначальную точку зрения. Excel имеет огромные недостатки для анализа данных. Если то, что вы делаете, выполняется в Excel, вы на самом деле не можете назвать это анализом данных, если только вы сами не вводите все расчеты вручную. Ничто не против Excel как электронной таблицы, но, в лучшем случае, это элементарный инструмент анализа данных. Но люди не знают лучше, потому что их не учат лучше. Я не из области статистики, но мне повезло, что кто-то упомянул мне R за то, что я сделал лучшие графики - и это, по совпадению, привело меня к лучшей статистике.
Mooks

«Я бы согласился с рекомендацией Кодиолога, чтобы попытаться мягко объяснить эти вещи, чтобы использовать правильную статистику». - Я хочу быть свидетелем. Стажер объясняет своему работодателю, как вести бизнес.
Аксакал

1
Это поможет, проверьте № 9. Это общий совет, который постоянно появляется в подобных списках. Первые 100 дней на работе: не предлагайте что-то изменить, сначала выясните, почему люди делают вещи так, как они делают, часто есть веская причина. Вы себя одурачите, и я видел, как это происходит с новыми парнями снова и снова. Просто заткнись и наблюдай несколько месяцев
Аксакал

@Aksakal То, что ты сказал, определенно имеет смысл. Я веду себя немного «смело» в своей ситуации, главным образом потому, что я стажер, и я знаю, что все равно скоро уезжаю.
3x89g2

3

То, что описано, выглядит как несколько неудачный опыт. Тем не менее, это не должно быть чем-то, что заставляет человека немедленно подвергать сомнению свое собственное образование или статистическое суждение своего руководителя / менеджера.

р2работа, а не асимптотическое поведение где-то в будущем, ничего не значит. Люди будут неохотно принимать это; зачем тратить энергию на изменения, когда все (несколько) работает? Ваш менеджер не обязательно ошибается с точки зрения бизнеса. Он отвечает за статистические и бизнес-решения вашего отдела; эти решения не обязательно совпадают всегда и, скорее всего, не совпадают по краткосрочным результатам (временные ограничения являются очень важным фактором в аналитике отраслевых данных).

Я советую придерживаться своего (статистического) оружия, но быть открытым к тому, что делают люди, быть терпеливым с людьми, которые могут быть отстранены от новых статистических практик, и предлагать советы / мнения, когда их просят , наращивать толщину кожи и учиться у своего окружения. Если вы делаете правильные вещи, это будет постепенно показывать, люди будут интересоваться вашим мнением, потому что они поймут, что вы можете предложить решения, которые не соответствуют их текущему рабочему процессу. Наконец, да, конечно, если по прошествии достаточного количества времени (по крайней мере, пары месяцев) вы чувствуете, что вас обесценивают и неуважительно относятся, просто двигайтесь дальше.

Само собой разумеется, что теперь, когда вы работаете в отрасли, вы не можете сидеть сложа руки и думать, что вам не нужно оттачивать свое образование в области статистики. Прогнозирующее моделирование, стратегии регрессии, алгоритмы кластеризации только продолжают развиваться. Например, использование регрессии гауссовских процессов в промышленных условиях было близко к научной фантастике 10 лет назад; теперь это можно увидеть почти как готовую вещь.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.