Какую статистическую концепцию сложнее всего понять?


32

Это вопрос, похожий на тот, что здесь , но я думаю, что он достаточно интересен.

Я думал, что я поставлю как стартер, что я думаю, что один из самых трудных для понимания является.

Моя разница между вероятностью и частотой . Один находится на уровне «знания реальности» (вероятности), а другой - на уровне «самой реальности» (частоты). Это почти всегда приводит меня в замешательство, если я слишком много думаю об этом.

Эдвин Джейнс придумал термин, называемый «ошибкой проекции ума», чтобы описать, как все это путается.

Есть какие-нибудь мысли по поводу других сложных концепций?


(Я не знаю достаточно, чтобы поставить это в качестве ответа, следовательно, добавив комментарий.) Я всегда думал, что было странно, что PI появляется в статистических уравнениях. Я имею в виду - какое отношение ПИ имеет к статистике? :)
Восстановить Монику - до свидания SE

2
Я бы согласился (в моем удивлении) - я думаю, что это всплывает во многих математических анализах. Просто примечание, которое вы можете написать с помощью латексных команд в виде заключенного в знаки $. Я использую вики-страницу, чтобы получить синтаксис en.wikibooks.org/wiki/LaTeX/Matmatics . Другой трюк состоит в том, чтобы «щелкнуть правой кнопкой мыши» по уравнению, которое вы видите на этом сайте, и выбрать «показать источник», чтобы получить команды, которые были использованы. ππ\pi
вероятностная

@ Wiki Если вы принимаете, что появляется, когда вы переходите от измерения длины отрезка прямой к длине отрезка круга, я не понимаю, почему это не будет отображаться при переходе от измерения вероятности падения вниз на отрезке для измерения вероятности падения на кусочек круга? π
Робин Жирар

@Wiki Когда у вас есть тригонометрические функции (синус, косинус, тангенс и т. Д.), Вы рискуете всплыть . И помните, что всякий раз, когда вы получаете функцию, вы на самом деле находите касательную. Что удивительного в том , что не появляется более часто. ππ
Карлос Аккиоли

@Carlos Я подозреваю, что распространенность в основном связана с использованием метрики , приводящей к n-сферам. В том же духе, я бы ожидать , что это чьих распространенности обусловлен анализ. 2π2e
Sesqu

Ответы:


31

по какой-то причине людям трудно понять, что такое p-значение.


3
@shabbychef: большинство людей понимают это наихудшим из возможных способов, то есть вероятностью ошибки I типа.
Suncoolsu

2
Я думаю, что это в основном связано с тем, как p-значения объясняются в классах (то есть: просто давая быстрое определение и не указывая, какие p-значения НЕ являются)
nico

Я думаю, что это в основном связано с тем, как это вводится. Для меня это было «дополнение» к классическому тесту на гипотезы - так что, похоже, это просто еще один способ сделать тест на гипотезы. Другая проблема заключается в том, что его обычно преподают только в отношении нормального распределения, где все «хорошо работает» (например, значение p является мерой доказательства при тестировании нормального среднего значения). Обобщение p-значения непросто, так как нет конкретных принципов, которыми можно руководствоваться при обобщении (например, нет общего соглашения о том, как p-значение должно изменяться в зависимости от размера выборки и множественных сравнений)
вероятностное

@shabbychef +1, хотя у ученика часто возникают трудности с p-значениями (примерно потому, что концепция в тестировании немного более тонкая, чем двоичный процесс принятия решения, и потому что «инвертировать функцию» нелегко представить). Когда вы говорите «по какой-то причине», вы имеете в виду, что для вас непонятно, почему люди испытывают трудности? PS: Если бы я мог, я бы попытался сделать статистику на этом сайте о связи между «быть главным ответом» и «говорить о p-значении» :). Я также спрашиваю себя, может ли самая сложная статистическая концепция понять больше всего голосов (если трудно понять ... :))
Робин Джирард

1
@eduardo - да, достаточно маленькое p-значение достаточно, чтобы поставить под сомнение нулевую гипотезу: но оно рассчитывается в полной изоляции от альтернативы. Используя только p-значения, вы никогда не сможете формально «отклонить» , потому что никакая альтернатива не была указана . Если вы формально отклоняете , то вы также должны отклонить вычисления, основанные на предположении, что является истинным, что означает, что вы должны отклонить вычисление p-значения, которое было получено в этом предположении (оно портит вашу голову, но это единственный способ последовательно рассуждать ). H0H0H0
вероятностная

23

Как и в случае с ответом Шаббычефа, трудно понять значение доверительного интервала в статистике частых случаев. Я думаю, что самым большим препятствием является то, что доверительный интервал не отвечает на вопрос, на который мы хотели бы ответить. Мы хотели бы знать, «какова вероятность того, что истинное значение находится внутри этого конкретного интервала?» Вместо этого мы можем только ответить: «Какова вероятность того, что случайно выбранный интервал, созданный таким образом, содержит истинный параметр?» Последнее явно менее удовлетворительно.


1
Чем больше я думаю о доверительных интервалах, тем сложнее мне думать о том, на какой вопрос они могут ответить на концептуальном уровне, на который невозможно ответить, задавая вопрос «вероятность того, что истинное значение находится в пределах интервала, учитывая состояние знание". Если бы я спросил: «Какова вероятность (при условии моей информации), что средний доход в 2010 году будет между 10 000 и 50 000?» Я не думаю, что теория доверительных интервалов может дать ответ на этот вопрос.
вероятностная


13

Условная вероятность, вероятно, приводит к большинству ошибок в повседневной жизни. Конечно, есть много более сложных концепций, но людям обычно не нужно о них беспокоиться - от них они не могут избавиться и являются источником безудержного несчастья.


+1; Не могли бы вы добавить пример или два, любимый или текущий?
Денис

1
Для начала: P (у вас болезнь | тест положительный)! = P (тест положительный | у вас болезнь).
xmjx

9

Я думаю, что очень немногие ученые понимают этот основной момент: результаты статистического анализа можно интерпретировать только по номиналу, если каждый шаг был запланирован заранее. В частности:

  • Размер образца должен быть выбран заранее. Не стоит продолжать анализировать данные, так как добавляется больше предметов, останавливаясь, когда результаты выглядят хорошими.
  • Любые методы, используемые для нормализации данных или исключения выбросов, также должны быть определены заранее. Нельзя анализировать различные подмножества данных, пока вы не найдете результаты, которые вам нравятся.
  • И, наконец, конечно, статистические методы должны быть определены заранее. Разве это не нормально анализировать данные с помощью параметрических и непараметрических методов и выбирать результаты, которые вам нравятся.

Исследовательские методы могут быть полезны для изучения. Но тогда вы не можете развернуться и запустить регулярные статистические тесты и интерпретировать результаты обычным способом.


5
Я думаю, что Джон Тьюки может не согласиться en.wikipedia.org/wiki/Exploratory_data_analysis ; o)
Дикран Marsupial

3
Я бы частично не согласился здесь. Я думаю, что упущение, которое пропускают люди, заключается в том, что соответствующие операции кондиционирования легко игнорировать для такого рода проблем. Каждая из этих операций изменяет условия вывода, и, следовательно, они изменяют условия его применимости (и, следовательно, его общности). Это определенно применимо только к «подтверждающему анализу», где были построены четко определенные модель и вопрос. В исследовательской фазе мы не стремимся отвечать на определенные вопросы - мы стремимся построить модель и выдвинуть гипотезу для данных.
вероятностная

Я немного отредактировал свой ответ, чтобы учесть комментарии Дикрана и вероятностно-логические. Спасибо.
Харви Мотульский

1
Для меня «исключение выбросов» не так явно неверно, как предполагает ваш ответ. Например, вас могут интересовать только отношения с определенным диапазоном ответов, и исключение выбросов действительно помогает в таком анализе. Например, если вы хотите смоделировать доход «среднего класса», то хорошей идеей является исключение сверхбогатых и обнищавших выбросов. Ваши комментарии применимы только к выбросам в пределах вашей системы выводов (например, «странные» наблюдения среднего класса)
вероятностная

2
В конечном итоге реальная проблема с вопросами, поднятыми в первоначальном ответе, заключается в том, что они (по крайней мере, частично) делают недействительными p-значения. Если вы заинтересованы в количественной оценке наблюдаемого эффекта, вы должны быть в состоянии выполнить все вышеперечисленное безнаказанно.
Russellpierce

9

Язык твердо в щеке: для часто встречающихся, байесовская концепция вероятности; для байесов - частое понятие вероятности. ; О)

Конечно, у обоих есть свои достоинства, но может быть очень трудно понять, почему одна структура интересна / полезна / действительна, если вы понимаете другую слишком жестко. Перекрестная проверка является хорошим средством, так как задавать вопросы и слушать ответы - хороший способ учиться.


2
Я использую правило, чтобы помнить: используйте вероятности, чтобы предсказать частоты. Как только частоты будут соблюдены, используйте их для оценки вероятностей, которые вы назначили. К сожалению, сбивает с толку то, что часто назначаемая вами вероятность равна наблюдаемой вами частоте . Одна вещь, которую я всегда нахожу странным, - почему частые люди даже используют слово вероятность? разве это не облегчит их понимание, если вместо слова «вероятность события» использовать фразу «частота события»?
вероятностная

Интересно, что перекрестная проверка может рассматриваться как приближение Монте-Карло к интегралу функции потерь в теории принятия решений. У вас есть целое число и вы аппроксимируете его как Где является вектор данных, а является вектором данных с Ith наблюдения удаленыp(x)L(xn,x)dxi=1i=nL(x[ni],xi)xnx[ni]xi
probabilityislogic

8

Исходя из моего личного опыта, концепция правдоподобия также может вызвать много шума, особенно для не статистиков. Как гласит Википедия, она очень часто смешивается с понятием вероятности, что не совсем правильно.



6

Что на самом деле представляют различные дистрибутивы, кроме того, как они используются.


3
Это был вопрос, который я нашел наиболее отвлекающим после статистики 101. Я столкнулся со многими дистрибутивами без какой-либо мотивации для них, кроме «свойств», которые были актуальны для рассматриваемых тем. Недопустимо долго выяснялось, что из этого представляет.
Sesqu

1
Максимальное энтропийное «мышление» - это один метод, который помогает понять, что такое распределение, а именно состояние знания (или описание неопределенности в чем-либо). Это единственное определение, которое имело смысл для меня во всех ситуациях
вероятностная

Бен Болкер дает хороший обзор этого в разделе «Beastiary of Distribution» в разделе « Экологические модели и данные в R»
Дэвид Лебауэр

5

Я думаю, что вопрос можно интерпретировать двумя способами, что даст очень разные ответы:

1) Что является самым сложным понятием для людей, изучающих статистику, особенно на относительно продвинутом уровне?

2) Какое статистическое понятие неправильно понято большинством людей?

Для 1) я не знаю ответа вообще. Может быть, что-то из теории меры? Какой-то тип интеграции? Я не знаю.

Для 2) р-значение, руки вниз.


Теория меры не является ни областью статистики, ни сложной. Некоторые типы интеграции сложны, но, опять же, это не статистика.
Пион

5

Доверительный интервал в небайесовской традиции является сложным.


5

Я думаю, что люди скучают по лодке почти во всем с первого раза. Я думаю, что большинство студентов не понимают, что они обычно оценивают параметры на основе выборок. Они не знают разницы между статистикой выборки и параметром населения. Если вы вбиваете эти идеи в голову, другие вещи должны следовать немного легче. Я уверен, что большинство студентов также не понимают суть CLT.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.