Какие теории должен знать каждый статистик?


30

Я думаю об этом с очень простой точки зрения минимальных требований. Каковы основные теории, которые отраслевой (не академический) статистик должен знать, понимать и использовать на регулярной основе?

На ум приходит закон больших чисел . Что наиболее важно для применения статистической теории к анализу данных?

Ответы:


41

Честно говоря, я не думаю, что закон больших чисел играет огромную роль в промышленности. Полезно понимать асимптотические обоснования общих процедур, таких как оценки и тесты максимального правдоподобия (в частности, все важные GLM и логистическая регрессия), начальной загрузки, но это проблемы распределения, а не вероятность попадания в проблемы с плохой выборкой ,

Помимо уже упомянутых тем (GLM, логический вывод, начальная загрузка), наиболее распространенной статистической моделью является линейная регрессия, поэтому необходимо полное понимание линейной модели. Вы можете никогда не использовать ANOVA в своей отрасли, но если вы этого не понимаете, вас не должны называть статистиком.

Существуют разные виды отраслей. В фармацевтике вы не можете зарабатывать на жизнь без рандомизированных испытаний и логистической регрессии. В статистике опроса вы не можете зарабатывать на жизнь без учета оценки Хорвица-Томпсона и отсутствия ответов. В статистике, связанной с информатикой, вы не можете зарабатывать на жизнь без статистического обучения и интеллектуального анализа данных. В аналитических центрах государственной политики (и, все чаще, в статистике образования) вы не можете зарабатывать на жизнь без причинно-следственных связей и оценок воздействия на лечение (которые все чаще включают рандомизированные испытания). В маркетинговых исследованиях вам необходимо сочетать экономические основы с теорией психометрических измерений (и вы не можете узнать ни одного из них в типичных предложениях отдела статистики). Промышленная статистика оперирует своими собственными своеобразными парадигмами шести сигм, которые, однако, отдаленно связаны с основной статистикой; более сильная связь может быть найдена в дизайне материала эксперимента. Материалом Уолл-стрит будет финансовая эконометрика, вплоть до стохастического исчисления. Это ОЧЕНЬ разрозненные навыки, а термин «индустрия» еще более плохо определен, чем «академия». Я не думаю, что кто-то может утверждать, что знает больше, чем два или три из вышеперечисленного одновременно.

Тем не менее, основными навыками, которые универсально потребуются в «отрасли» (что бы это ни значило для вас), будет управление временем, управление проектами и общение с менее статистически подкованными клиентами. Поэтому, если вы хотите подготовить себя к трудоустройству в промышленности, возьмите занятия в бизнес-школе по этим темам.

ОБНОВЛЕНИЕ: оригинальный пост был написан в феврале 2012 года; в эти дни (март 2014 года) вы, вероятно, должны называть себя «специалистом по данным», а не «статистиком», чтобы найти горячую работу в промышленности ... и лучше изучить Hadoop, чтобы следовать этому самопровозглашению.


1
Отличный ответ. Спасибо за то, что подчеркнули некоторые большие различия между статистиками в отрасли. Это помогает мотивировать мой вопрос, потому что я считаю, что многие люди имеют другое представление о том, что статистик делает / делает. Я думаю, я пытался выяснить, где все они пересекаются с базовым пониманием. Кроме того, я очень ценю ваш последний абзац о бизнес-темах и их важности. Замечательные моменты, но я все еще хотел бы посмотреть, может ли кто-нибудь добавить в разговор, прежде чем принять.
bnjmn

Я озадачен этими «особыми парадигмами Шести Сигм», «удаленно связанными с основной статистикой», с которыми, как вы говорите, работает статистика промышленности. Это кажется мне совершенно ортодоксальным, оставляя в стороне различия в терминологии, обнаруженные между всеми этими подполями.
Scortchi - Восстановить Монику

4
109

Достаточно справедливо: я бы сказал, что анализ систем измерения (согласование между оценками, исследования воспроизводимости и повторяемости калибровок), статистический контроль процессов, анализ надежности (так называемый анализ выживаемости) и экспериментальный дизайн ((дробный) факторный дизайн, методология поверхности отклика) ) были характерны для промышленной статистики.
Scortchi - Восстановить Монику

12

Я думаю, что хорошее понимание вопросов, касающихся компромисса смещения . В какой-то момент большинство статистиков будут анализировать набор данных, достаточно малый для того, чтобы дисперсия оценки или параметров модели была достаточно высокой, чтобы смещение было вторичным.


11

Чтобы указать на супер очевидный:

Центральная предельная теорема

pp

Бутстрапирование


8

Я бы не сказал, что это очень похоже на что-то вроде закона больших чисел или центральной предельной теоремы, но поскольку выводы о причинности часто бывают центральными, понимание работы Иудеи Перл по использованию структурированных графиков для моделирования причинности - это то, что люди должны быть знакомы с. Он предоставляет способ понять, почему экспериментальные и наблюдательные исследования различаются в отношении причинных выводов, которые они предоставляют, и предлагает способы работы с данными наблюдений. Для хорошего обзора его книга здесь .


2
Есть также контрфактуальная структура Рубина; Существуют также методы моделирования структурных уравнений и эконометрические инструментальные переменные ... некоторые из них описаны в «Наиболее безвредной эконометрике», которая является лучшей из статистических книг, написанных не статистиками.
StasK

7

Точное понимание существенной проблемы, которую необходимо решить, так же важно, как и любой конкретный статистический подход. Хороший ученый в этой области, скорее, чем статистик, не обладающий такими знаниями, найдет разумное решение своей проблемы. Статистик с существенными знаниями может помочь.


6

Дельта-метод, как рассчитать дисперсию причудливой статистики и найти ее асимптотическую относительную эффективность, рекомендовать изменения переменной и объяснить повышение эффективности, «оценив правильную вещь». В связи с этим, неравенство Дженсена для понимания GLM и странные виды смещения, которые возникают в преобразованиях, как указано выше. И теперь, когда упоминаются смещение и дисперсия, концепция компромисса смещения дисперсии и MSE как объективная мера точности прогнозирования.


6

На мой взгляд, статистический вывод является наиболее важным для практикующего врача. Вывод состоит из двух частей: 1) Оценка и 2) Проверка гипотез. Проверка гипотез важна. Так как при оценке в основном применяется уникальная процедура, оценка максимального правдоподобия, и в ней доступен самый статистический пакет (поэтому нет путаницы).

Частые вопросы специалистов-практиков касаются значительного тестирования различий или причинного анализа. Важные тесты гипотез можно найти по этой ссылке .

Знание о линейных моделях, GLM или вообще статистическом моделировании требуется для интерпретации причинно-следственных связей. Я предполагаю, что будущее анализа данных включает байесовский вывод.


0

Случайный вывод является обязательным. И как решить эту фундаментальную проблему, нельзя возвращаться во времени и не лечить кого-то. Прочитайте статьи о Рубине, Фишере, основателе современной статистики студента.) .... Что нужно научиться решать эту проблему, как правильно рандомизировать и как закон больших чисел говорит, что вещи правильно рандомизированы, Проверка гипотез, Потенциальные результаты (верно против предположения гетроскастизма и отлично с отсутствием), сопоставление (отлично для отсутствия, но потенциальные результаты лучше, потому что это более обобщенно, я имею в виду, зачем изучать тонну сложных вещей, когда вы можете узнать только одну сложную вещь), Bootstrap, Байесовская статистика, конечно (байесовская регрессия , наивная байесовская регрессия, байесовские факторы) и непапметрические альтернативы.

Обычно на практике просто следуйте этим общим шагам,

Что касается предыдущего комментария, вы должны сначала начать с ANOVA (случайные эффекты или фиксированные эффекты и преобразовать непрерывные типы в ячейки), а затем использовать регрессию (которая, если вы преобразуете и изменяете, иногда может быть такой же хорошей, как ANOVA, но никогда не побеждает ее) чтобы увидеть, какие специфические методы лечения значительны, (применяют множественный t-тест и используют некоторую коррекцию, такую ​​как метид Хольма), используйте регрессию.

В тех случаях, когда вы должны предсказать вещи, используйте баясовую регрессию.

Отсутствие при более чем 5% использования потенциальных результатов

Другой раздел аналитики данных - это контролируемое машинное обучение, о котором следует упомянуть.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.