В чем проблема с апостериорным тестированием?


15

Мой профессор статистики так говорит, все книги, на которые я смотрю, утверждают: пост-специальное тестирование ненаучно. Вы должны сначала вывести гипотезу из теории, а затем собрать данные и проанализировать их.

Но я действительно не понимаю, в чем проблема.

Предположим, я вижу данные о продажах автомобилей разных цветов и формирую гипотезу о том, что из числа продаваемых автомобилей разноцветного цвета наибольшая группа автомобилей на улице должна быть белой. Так что однажды я сижу на какой-то улице и отмечаю все цвета всех автомобилей, которые меня проезжают. Затем я делаю некоторые тесты и нахожу что угодно.

Теперь, предположим, мне было скучно, я однажды сидел на какой-то улице и заметил все цвета всех машин, которые проезжали мимо меня. Поскольку я люблю графики, я строю красивую гистограмму и нахожу, что белые машины составляют наибольшую группу. Поэтому я думаю, что, возможно, большинство автомобилей на улице белые и выполняют некоторые тесты.

Как и почему результаты или интерпретация результатов апостериорного теста отличаются от результатов теста, основанного на теории * гипотез?

* Во всяком случае, как называется противоположность после специального теста?


Я хотел бы добавить, что большая часть наших знаний о Вселенной (Земля движется вокруг Солнца) выводится постфактум из наблюдения.

Мне кажется, что в физике совершенно нормально предположить, что это не совпадение, что солнце восходит на Востоке в течение последней тысячи лет.


2
Проблемы иллюстрируются здесь и здесь .
Scortchi - Восстановить Монику

@ Scortchi Хм, спасибо, но все, что я могу найти, это: «Это было бы злоупотреблением статистическим тестированием, что было достаточно объяснено и продемонстрировано во многих местах». Остальные комментарии и ответы, по-видимому, объясняют не проблему пост-специального тестирования, а тестирования в целом.

2
Сравните ответ амебы (эквивалентный вашему 1-му сценарию) с ответом Уубера (эквивалентным вашему 2-му).
Scortchi - Восстановить Монику

3
Просто обратите внимание, что противоположность post-hoc априори. Ответ @whuber в посте, связанном выше, довольно всеобъемлющий, но вы можете посмотреть предварительный анализ данных вместо подтверждающего анализа данных.
Питер Флом - Восстановить Монику

Это косвенно связано, но может представлять интерес для людей, читающих этот вопрос: andrewgelman.com/2014/12/20/…
shadowtalker

Ответы:


12

«Вы знаете, самое удивительное случилось со мной сегодня вечером. Я приехал сюда, по дороге на лекцию, и я вошел через парковку. И вы не поверите, что случилось. Я увидел машину с лицензией номерной знак ARW 357. Можете себе представить? Из всех миллионов номерных знаков в штате, какой был шанс, что я увижу именно этот номер сегодня вечером? Удивительно! " Ричард Фейнман

Я чувствую, что не в состоянии объяснить глубокие технические аспекты этой проблемы. Однако я думаю, что многие из них могут быть сведены к интуиции.

В первой настройке вы начинаете с некоторой гипотезы, которую вы проверяете на новых данных (из разработанного эксперимента). Изучение показателей продаж может привести вас к очень тщательно продуманному хорошо спланированному эксперименту, в котором вы действительно сможете решить, насколько сильным должен быть ваш ответ (статистическая мощность, p-значения, размер выборки и многое другое).

Во втором случае, прежде всего, вы ничего не решаете о силе ответа. Это одна проблема. Вторая проблема заключается в том, что извлечение гипотезы из той же выборки, которая использовалась для тестов, очень неконтролируемым образом увеличит шансы того, что случайные шаблоны будут интерпретированы как ценная информация. Что вы делаете, это замечаете что-то (что белых машин в большом количестве) и спрашиваете себя, важно ли это. Дело в том, что вы выбрали только заметный факт, видимый в этом образце, отбрасывая другие гипотезы. Делая это, вы создали благоприятные условия для какой-то гипотезы, и вы нарушаете предположения большинства априорных статистических тестов.

Не научно вести себя так, как будто вы не знали об этой утечке , и делать вид, что это эксперимент со всеми его предположениями, когда это не так. В данном случае научным является использование анализа post hoc для формулирования гипотезы и разработки совершенно нового эксперимента для его проверки.


Но не является ли эксперимент, созданный специально для гипотезы, наиболее экстремальной формой «благоприятных» условий?

1
Единственное, что «одобряет» эксперимент - это твердость ответа. И среди прочего, он пытается «не одобрить» конкретную гипотезу.
Рапайо

4

Если вы сначала соберете данные, а затем построите теорию на основе этих данных, вы рискуете приспособить историю к своим наблюдениям. Проблема в том, что мы, люди, очень хорошо пишем истории. Иными словами, любые данные могут быть «объяснены» историей, если история достаточно запутана.

Этот процесс предусматривает хорошие анекдоты. Тем не менее, нет никаких причин, почему он должен объяснять реальность и / или давать хорошие прогнозы. Вы должны установить и проверить модель для этого.

xkcd отмечает, что это явление пронизывает спортивный «комментарий» :

спортивный комментарий

С этим связан феномен парейдолии : паттерны видения там, где их нет. См., Например, «Лицо», которое люди видели на более ранних спутниковых снимках Марса:

Марсианское лицо

Кроме того, по мере того, как вы собираете больше данных, вы должны быть осторожны, чтобы не подправлять свою историю еще более странными способами, чтобы она «продолжала» «объяснять» ваши наблюдения :

электоральный прецедент


2

Наука работает, формируя гипотезы (которые, конечно, мотивируются опытом), делая прогнозы на основе этих гипотез, а затем проверяя их. Имеет ли смысл наблюдать что-то в прошлом, обобщать это наблюдение в теорию, но затем рассматривать само прошлое как своего рода ретроактивный эксперимент, автоматически проверяющий теорию? Нет, потому что весь вопрос был в том, насколько хорошо обобщается ваша теория, а не в том, сработала ли она когда-то в прошлом. Вот почему проверка гипотез, предлагаемых данными , считается плохой наукой.


1

Ваш профессор и другие ответы правы, что после специального анализа есть проблемы. Тем не менее, вы также правы в том, что много хорошей науки исходит из специального анализа. Ключевым моментом является то, что правильно спланированные эксперименты должны быть предпочтительнее, и что к специальному анализу следует относиться с осторожностью и с помощью специальных инструментов для предотвращения недостающих ложных артефактов при реальных открытиях. Статья в Википедии о частоте ложных открытий может дать представление о проблеме.

Просто чтобы привести пару примеров:

  • Если мы примем биометрические меры по всему миру поголовья крупного рогатого скота, мы можем заключить, что у крупного рогатого скота есть две ноздри. Это на самом деле постфактумный анализ, но большая часть биологии, вулканологии или истории построена именно так. Причина, по которой мы не отрицаем тот факт, что у крупного рогатого скота есть две ноздри, является доказательством того, что оно настолько подавляющее.
  • Мы берем данные от телят, родившихся в предыдущем году на данной ферме крупного рогатого скота. Мы понимаем, что в каждый вторник при полной луне более 50% новорожденных телят были самками - за исключением государственных праздников в этой стране или зимних вторников. Если бы мы ранее выдвинули гипотезу о том, что в такие дни рождается больше самок, мы могли бы проверить гипотезу и принять (или отклонить) эту гипотезу. Однако, если мы примем во внимание, что это всего лишь последующий анализ, доказательств будет недостаточно, чтобы отвергнуть ложное явление.

Есть часто цитируемая статья, которая иронически опровергаются все свидетельства того, что парашюты полезны как анекдотические - это просто особенно плохой класс доказательств, основанный на последнем анализе.

И чтобы использовать хороший пример, использованный в ответе Стефана Коласса: несколько темных пятен, напоминающих лицо на Марсе, могут быть отклонены как пареидолия, но что-то, воспроизводящее Тайную вечерю Леонардо Да Винчи до мельчайших деталей, не может.


0

Если у вас нет теории, поддерживающей ваши предложения, то даже если ваше предложение подтверждено, оно может быть совпадением и ничего не доказывает. Например, я нахожу, что я делаю горшочек, когда восходит солнце, и делаю это в течение последних 10 лет - на основе этих данных, анализ после разборчивости говорит мне, что есть связь между моим горшком и восходом солнца, тогда как то, что существует, является просто совпадением. Солнце не встает, потому что вы делаете горшок или наоборот.

Жизнь полна совпадений. Теоретические положения устраняют такие совпадения или псевдосвязи.


Если у меня есть теория и результаты соответствуют этой теории, это может быть совпадением. Вот почему теории не могут быть проверены, только фальсифицированы. И действительно, существует связь между утренним испражнением и восходом солнца, потому что движения солнца диктуют суточный ритм, что, в свою очередь, влияет на испражнения.

0

Вот интуиция, которая может оказаться вам полезной. Если вам скучно и вы считаете автомобили, вы все равно должны помнить, что то, что вы видите, является результатом какого-то случайного процесса. В частности, автомобили могли быть разных цветов.

Поэтому, если вы сформулируете гипотезу о том, что наиболее частым цветом является белый, возможно, потому, что это действительно так, но также может быть так, что наиболее частым цветом является красный, но в этом конкретном эксперименте наиболее частым был белый (что всегда возможно). ).

Теперь, если вы делаете пост-hoc , вы будете проверять, является ли белый цвет наиболее частым, и, учитывая, что данные подтверждают эту гипотезу, вы вполне можете сделать вывод, что белый является наиболее частым ... По крайней мере, данные никогда не будут противоречить (post-hoc) гипотеза.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.