Статистическая интуиция / смысл данных


20

Я студент второго курса, изучаю математику, и я много говорил с одним из моих профессоров о разнице между математическими и статистическими способностями. Одним из ключевых отличий, которые он затронул, было «чувство данных», которое он объяснил как сочетание технических способностей, работая в рамках набора, который я неформально назову «ограничениями здравого смысла», то есть не упуская из виду реальность проблемы среди много теории. Это пример того, о чем я говорил, который появился в блоге Гауэрса:

В нескольких частях Великобритании полиция собрала статистику о том, где произошли дорожно-транспортные происшествия, определила черные пятна, установила там камеры контроля скорости и собрала дополнительную статистику. Существовала определенная тенденция к снижению количества несчастных случаев на этих черных точках после установки камер контроля скорости. Означает ли это убедительно, что камеры контроля скорости повышают безопасность дорожного движения?

Тот же человек, который выступал за рандомизированную стратегию в игре на переговорах, в основном уже знал ответ на этот вопрос. Он сказал «нет», поскольку, если вы выберете крайние случаи, вы ожидаете, что они будут менее экстремальными, если вы снова запустите эксперимент. Я решил быстро отойти от этого вопроса, так как не было больше, чтобы сказать. Но я рассказал людям о своем плане, который заключался в том, чтобы провести фиктивный эксперимент по телепатии. Я заставил бы их угадать результаты 20 бросков монет, которые я попытался бы передать им телепатически. Затем я выбрал бы трех лучших исполнителей и трех худших, и снова бросил бы монеты, на этот раз попросив лучших, чтобы помочь мне дать ответы на худшие. Люди могли легко видеть, что спектакли, как ожидается, улучшатся и что это не будет иметь ничего общего с телепатией.

Я спрашиваю, как узнать больше об этом «смысле данных» , с помощью любых публикаций на эту тему, если они существуют, или с помощью того, что другие пользователи сочли полезным для развития этого навыка. Извините, если этот вопрос требует уточнения; если так, пожалуйста, оставьте свои вопросы! Благодарю.


Как лечь со статистикой - отличное место для начала.
MånsT

The Walk of Drunkard's Walk также помещает статистику в доступную общую структуру.
Маркус Морриси

Ответы:


10

Сначала я бы сказал, что мы не должны слегка заниматься математикой. Это важный инструмент в развитии статистической теории, и статистические методы обоснованы теорией. Теория также говорит вам, что не так и какие методы могут быть лучше (например, более эффективными). Поэтому я думаю, что математические знания и мышление важны (почти необходимы), чтобы быть хорошим статистиком. Но этого явно недостаточно. Я думаю, что книги, на которые есть ссылки в комментариях, хороши. Позвольте мне дать некоторые другие.

Осмысление данных: практическое руководство по поисковому анализу данных и интеллектуальному анализу данных

Осмысление данных II: практическое руководство по визуализации данных, расширенным методам интеллектуального анализа данных и приложениям

Статистическое мышление: повышение эффективности бизнеса

Роль статистики в бизнесе и промышленности

Карьера в статистике: за гранью цифр

Книги Хана и Сни особенно ценны и интересны, потому что это известные промышленные статистики с математическими навыками и практическим опытом.


7
Спасибо за ссылки и комментарии. Я думаю, что в целом ответы могут быть улучшены с помощью [manuscript title](uri) ссылки на разметку . После долгого дня я обнаружил, что ответы с длинными гиперссылками могут подсознательно вызывать раздражение, и, к сожалению, могут привести читателя к неправильному ответу.
Jthetzel

@jthetzel Я понимаю, почему лучше иметь имя, заменяющее URL в ссылке. Когда у меня будет время, я научусь это делать. Я знаю, что это легко. Но я дал три или четыре ссылки. почти не требуется времени, чтобы перейти по ссылке и посмотреть, что это такое. поэтому я не очень понимаю, почему так много членов сообщества делают из-за этого большие проблемы.
Майкл Р. Черник

6

В приведенном вами примере основной проблемой является причинный вывод. Хорошее место для начала причинно-следственной связи - это обзор трех книг Эндрю Гельмана и рецензируемые в нем книги. В дополнение к изучению причинно-следственных связей вы должны узнать о важности анализа, описания и прогнозирования поисковых данных.

Я узнал невероятное количество, услышав, как социологи критикуют исследования друг друга в опубликованных работах, блогах , семинарах и в личных беседах - есть много способов научиться. Следите за этим сайтом и блогом Эндрю Гельмана.

Конечно, если вам нужен смысл данных, вам нужно потренироваться в работе с реальными данными. Существуют общие навыки работы с данными, но есть также и понимание данных, специфичное для проблемной области, или, более конкретно, чувство данных, специфичное для конкретного набора данных.


5

Хороший бесплатный ресурс - это Chance News Wiki . В нем есть много примеров, взятых из реальных примеров, а также обсуждаются хорошие и плохие моменты в том, как люди интерпретируют данные и статистику. Часто возникают и вопросы для обсуждения (часть мотивации этого вида - дать учителям статистики примеры из реальной жизни, которые можно обсуждать со студентами).


5

+1 за отличный вопрос! (И +1 всем ответчикам до настоящего времени.)

Я думаю, что есть очень много таких вещей, как смысл данных, но я не думаю, что в этом есть что-то мистическое. Я бы использовал аналогию с вождением. Когда вы едете по дороге, вы просто знаете, что происходит с другими автомобилями. Например, вы знаете, что парень перед вами в стороне ищет дорожный знак, на котором он должен повернуть, даже если он не использует свой сигнал поворота. Вы автоматически идентифицируете медленного, чрезмерно осторожного водителя и предугадываете, как он будет реагировать в различных ситуациях. Вы можете заметить подростка, который просто хочет мчаться так быстро, как только может. У вас есть чувство признания того, что делают все машины. Это точно так же, как смысл данных. Это приходит из опыта, многоопыта. Если вы знаете достаточно теории, вам просто нужно начать играть с реальными наборами данных. Вы можете быть заинтересованы в изучении сайта, как DASL . Однако одно условие заключается в том, что вы не должны просто получать опыт загрузки набора данных, выполнения теста и получения значения p. Вам нужно будет изучить данные, возможно, построить их по-разному, подобрать некоторые модели и подумать о том, что происходит. (Обратите внимание, что EDA была общая тема здесь.)

Возможно, неочевидный факт об этом процессе заключается в том, что смысл данных может быть локализован в данной тематической области. Например, вы можете получить большой опыт работы с экспериментальными данными и данными ANOVA, но не обязательно иметь хорошее представление о том, что происходит, когда вы смотрите на данные временных рядов или данные о выживаемости.

Позвольте мне добавить еще одну стратегию, которая мне показалась чрезвычайно полезной: я думаю, что стоит потратить время на изучение небольшого (статистического) программирования. Вы не должны быть ужасно хороши в этом (я известен написанием «комично неэффективного» кода). Однако, как только вы можете написать некоторый базовый процедурный код (скажем, в R), вы можете имитировать . Мне было бы трудно переоценить, насколько полезна способность проводить даже очень простые симуляции. Одна вещь, для которой вы можете использовать это, когда вы в процессе обучения читаете о собственности, которую вы можете исследовать. Например, если вы знаете (абстрактно), что эмпирически сложно определить, является ли логит или пробитная модель лучше для набора данных, вы можете написать простое моделирование этогои играть с ними, чтобы понять идею более полно. Это также предоставит вам опыт, но немного другого типа, а также поможет вам развить ваше понимание данных.


+1 За подчеркивание ценности обучения на симуляторах.
whuber
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.