Объясните комикс из желейных бобов xkcd: Что делает его смешным?

Я вижу, что один из двадцати общих тестов, которые они выполняют, , поэтому они ошибочно полагают, что во время одного из двадцати тестов результат значительный ( ). $p < 0.05$ $0.05 = 1/20$

комикс желейных бобов xkcd - "Значительный"

Название: Значительное
Текст при наведении курсора: «Итак, мы снова провели« зеленое »исследование и не получили никакой ссылки. Вероятно, это было…» ИССЛЕДОВАНИЕ, КОНФЛИКТИРОВАННОЕ НА ЗЕЛЕНОЙ ЖЕЛЕВОЙ БИНО / СВЕТЛЫХ ССЫЛКАХ; БОЛЬШЕ ИЗУЧЕНИЯ РЕКОМЕНДУЕТСЯ! »

xkcd comic 882 - «Значительный»

— DJG
источник

95% уверенности будет означать, что в среднем в 5% экспериментов (один из 20) мы получим противоположный вывод. Что именно здесь и произошло. То есть, если вы также проведете один и тот же эксперимент с апельсиновыми бобами 1000 раз, ~ 50 из них дадут положительный результат. :)

— sashkello

Кто сказал, что это смешно?

— whuber

Я сам, помимо остальных 59 избирателей здесь , так что его как минимум! ;-P (Этот комментарий определенно не отражает мое мнение о XKCD в целом.) Если нет такой вещи, как , в этом случае мы, вероятно, хотели бы получить более качественные данные. Никто пока не отрицал это, FWIW как доступную операционализацию «отрицательной смешности» ... и с этим я, вероятно, перенес этот комментарий в область отрицательной смешности ...

funniness > 0

$\text{funniness}>0$

funniness < 0

$\text{funniness}<0$

(p < .05)

$(p<.05)$

— Ник Стаунер

См. Также эту дискуссию на объяснении на xxccd.com

— Jeromy Anglim

@Glen_b, любимая мультипликационная ветка анализа данных, соответственно, CW, однако я не вижу причин, по которой это должно быть. Помимо «почему смешно», вопрос требует понимания статистического момента, о котором идет речь, в карикатуре, на который есть ответ, и он должен быть тематическим, а не CW (и который, я думаю, вы рассмотрели ниже).

— gung - Восстановить Монику

Ответы:

Юмор - вещь очень личная - некоторым людям это покажется забавным, но это может быть не смешным для всех - и попытки объяснить, что делает что-то смешное, часто не могут передать смешного, даже если они объясняют основную мысль. На самом деле, не все xkcd даже предназначены для забавы. Многие, тем не менее, делают важные замечания таким образом, что это заставляет задуматься, и по крайней мере иногда они забавляют, делая это. (Лично я нахожу это смешным, но мне трудно четко объяснить, что именно делает это смешным для меня. Я думаю, что отчасти это признание того, как сомнительный или даже сомнительный результат превращается в цирк СМИ ( на котором см. также этот комикс доктора философии ), и, возможно, отчасти признание того, каким образом на самом деле могут быть проведены некоторые исследования - если обычно не сознательно.)

Тем не менее, можно оценить, насколько щекотно это или нет.

Дело в том, чтобы провести несколько тестов гипотез на некотором умеренном уровне значимости, например, 5%, а затем опубликовать тот, который оказался значительным. Конечно, если вы проведете 20 таких тестов, когда на самом деле ничего важного не происходит, то ожидаемое количество этих тестов, дающих существенный результат, составляет 1. Выполнение приблизительной аппроксимации в голове для тестов на уровне значимости , примерно 37% вероятности не значительного результата, примерно 37% вероятности одного и примерно 26% вероятности более одного (я только что проверил точные ответы; они достаточно близки к этому). $n$ $\frac{1}{n}$

В комиксе Рэндалл изобразил 20 тестов, так что это, без сомнения, его точка зрения (что вы ожидаете получить одно значительное, даже если ничего не происходит). В вымышленной газетной статье даже подчеркивается проблема с подзаголовком «Шанс совпадения всего 5%!». (Если единственный тест, который закончился в бумагах, был единственным, сделанным, это могло бы иметь место.)

Конечно, есть и более тонкая проблема, заключающаяся в том, что отдельный исследователь может вести себя гораздо более разумно, но проблема повсеместного распространения ложных срабатываний все еще возникает. Предположим, что эти исследователи проводят только 5 тестов, каждый на уровне 1%, поэтому их общий шанс обнаружить поддельный результат составляет всего около пяти процентов.

Все идет нормально. Но теперь представьте, что есть 20 таких исследовательских групп, каждая из которых тестирует любое случайное подмножество цветов, которое, по их мнению, у них есть основания попробовать. Или 100 исследовательских групп ... какие шансы на заголовок, как сейчас в комиксе?

Таким образом, в более широком смысле, комикс может ссылаться на предвзятость публикации в целом. Если трубить только о значительных результатах, мы не услышим о десятках групп, которые ничего не нашли для зеленых мармелад-бобов, только о той, которая это сделала.

В самом деле, это одна из основных тем , которая была сделана в этой статье , которая была в новостях за последние несколько месяцев ( например, здесь , хотя это статья 2005 года).

Ответ на эту статью подчеркивает необходимость репликации. Обратите внимание, что если бы было опубликовано несколько копий исследования, результаты «Зеленые желе, связанные с прыщами» были бы очень маловероятными.

(И действительно, парящий текст для комикса делает умную ссылку на ту же самую точку.)

— Glen_b
источник

Влияние проверки гипотез на решение о публикации было описано более пятидесяти лет назад в публикации JASA « Решения о публикации» 1959 года и их возможное влияние на выводы, сделанные на основании тестов значимости - или наоборот (извините за платный доступ).

Обзор статьи В статье указывается, что опубликованные результаты научных работ не являются репрезентативной выборкой результатов всех исследований. Автор рецензировал статьи, опубликованные в четырех основных психологических журналах. 97% рецензируемых работ сообщили о статистически значимых результатах для своих основных научных гипотез.

Автор выдвигает возможное объяснение этого наблюдения: то исследование, которое дает незначительные результаты, не публикуется. Такое исследование, неизвестное другим исследователям, может повторяться независимо до тех пор, пока случайно не произойдет значительный результат (ошибка типа 1), и оно будет опубликовано. Это открывает возможность для того, чтобы опубликованная научная литература могла включать в себя чрезмерное представление неверных результатов, являющихся результатом ошибок типа 1 в тестах статистической значимости - именно тот сценарий, над которым издевался оригинальный комикс XKCD.

Это общее наблюдение было впоследствии проверено и вновь открыто в последующие годы. Я полагаю, что статья JASA 1959 года была первой, выдвинувшей гипотезу. Автор этой статьи был моим научным руководителем. Мы обновили его статью 1959 года 35 лет спустя и пришли к тем же выводам. Пересмотренные решения о публикации: влияние результатов статистических испытаний на решение о публикации и наоборот. Американский статистик, том 49, № 1, февраль 1995 г.

— Вильф Розенбаум
источник

Конечно, я отредактировал свой ответ выше, чтобы включить обзор статьи.

— Уилф Розенбаум

Связанный: en.wikipedia.org/wiki/Half-life_of_knowledge

— kjetil b halvorsen

-2

Люди упускают из виду, что фактическое значение p для случая с зеленым желе-бобом составляет не 0,05, а около 0,64. Только притворное (номинальное) значение p равно .05. Существует разница между фактическим и предполагаемым p-значениями. Вероятность найти 1 из 20, которые достигнут номинального уровня, даже если все нули имеют значение «истина», составляет НЕ 0,05, а 0,64. С другой стороны, если вы оцените доказательства, сравнивающие вероятности сравнений - наиболее популярное представление помимо статистической ошибки (в пределах которой находятся значения p), вы скажете, что есть свидетельства H: зеленые желейные бобы действительно коррелируют с прыщами. Это потому, что P (x; без эффекта) <P (x; H). Левая сторона <0,05, тогда как правая сторона довольно высока: если бы зеленые желейные бобы действительно вызывали прыщи, тогда было бы вероятно обнаружение наблюдаемой ассоциации. Одни вероятности не могут определить вероятности ошибок, поскольку они зависят от фактических полученных данных. Там нет никакой разницы в оценке, чем если бы только что было это одно испытание зеленых бобов желе и прыщей. Таким образом, хотя этот мультфильм часто рассматривается как высмеивающее p-значения, самое забавное в нем демонстрирует, почему мы должны учитывать общую вероятность ошибки (как это делают неп притворные p-значения), а не просто вероятности. Байесовский вывод также зависит от результата, игнорируя вероятности ошибки. Единственный способ избежать поиска доказательств для H для байесовского источника - это иметь низкий приоритет перед H. Но мы бы скорректировали значение p независимо от предмета и без использования априорных форм из-за используемой процедуры охоты. найти гипотезу для проверки. Даже если H, на которого охотились, было правдоподобным, это Все еще паршивый тест. Errorstatistics.com

— user48784
источник

Очень трудно точно сказать, что пытается сказать этот пост. Позвольте мне сосредоточиться на одной его части, надеясь, что разъяснение может раскрыть значение остальных: что именно вы подразумеваете под «общей вероятностью ошибки»?

— whuber

@whuber Я считаю, что пост касается проблемы множественных сравнений.

— Мэтт