Самые интересные статистические парадоксы


112

Поскольку я нахожу их увлекательными, мне бы хотелось услышать, что люди в этом сообществе считают наиболее интересным статистическим парадоксом и почему.


1
Несколько небольших примеров, особенно в контексте опроса, здесь: filipspagnoli.wordpress.com/category/statistics/…
Чарли

Ответы:


100

Это не парадокс как таковой , но это удивительный комментарий, по крайней мере, на первый взгляд.

Во время Второй мировой войны Авраам Уолд был статистиком для правительства США. Он посмотрел на бомбардировщики, которые вернулись из миссий, и проанализировал схему пулевых «ран» на самолетах. Он рекомендовал военно-морскому флоту укреплять районы, где самолеты не имели повреждений.

Почему? У нас есть эффекты выбора на работе. Этот образец показывает, что ущерб, нанесенный наблюдаемым участкам, может быть выдержан. Либо самолеты никогда не попадали в нетронутые районы, маловероятное предложение, либо удары по этим частям были смертельными. Мы заботимся о самолетах, которые упали, а не только о тех, которые вернулись. Те, кто упал, вероятно, подверглись нападению в месте, которое не было затронуто теми, кто выжил.

Копии его оригинальных меморандумов смотрите здесь . Более современное приложение смотрите в этом блоге Scientific American .

Согласно этой публикации в блоге , во время Первой мировой войны развитие темы оловянного шлема привело к большему количеству ран на голове, чем к стандартной шапке из ткани. Был ли новый шлем хуже для солдат? Нет; хотя травмы были выше, смертность была ниже.


3
Я помню, что читал это в нескольких местах раньше, но у меня нет ссылки под рукой. Есть ли один, который вы можете добавить?
кардинал

1
@ Cardinal, я нашел несколько записок для тебя. Похоже, что исследование было на самом деле для США
Чарли

Где-то для этого примера есть график рассеяния гипотетического самолета, но я не могу его найти.
Fomite

+1. Это пример предвзятого отношения к выживанию , возможно, самого вредного из предубеждений. Я расширил это в ответе.
Клифф А.Б.

47

Другой пример - экологическая ошибка .

Пример
Предположим, что мы ищем взаимосвязь между голосованием и доходом, регрессируя долю голосов для тогдашнего сенатора Обамы на средний доход государства (в тысячах). Мы получаем перехват приблизительно 20 и коэффициент наклона 0,61.

Многие интерпретируют этот результат как высказывание, что люди с более высокими доходами чаще голосуют за демократов; действительно, популярные книги прессы приводят этот аргумент.

Но подождите, я подумал, что богатые люди с большей вероятностью будут республиканцами? Они есть.

Что действительно говорит нам этот регресс, так это то, что богатые штаты чаще голосуют за демократа, а бедные штаты чаще голосуют за республиканца. В данном государстве богатые люди чаще голосуют за республиканцев, а бедные - за демократа. Смотрите работы Эндрю Гельмана и его соавторов .

Без дальнейших допущений мы не можем использовать данные группового уровня (совокупные), чтобы сделать выводы о поведении индивидуального уровня. Это экологическая ошибка. Данные на уровне группы могут рассказать нам только о поведении на уровне группы.

Чтобы сделать скачок к выводам на индивидуальном уровне, нам необходимо предположение о постоянстве . Здесь избирательный выбор отдельных лиц чаще всего не меняется систематически в зависимости от среднего дохода государства; человек , который зарабатывает $ X в богатом государстве должно быть столь же вероятно , чтобы голосовать за демократа , кто зарабатывает $ X в плохом состоянии. Но люди в Коннектикуте, на всех уровнях дохода, более склонны голосовать за демократа, чем люди в Миссисипи с теми же уровнями дохода . Следовательно, допущение согласованности нарушается, и мы приводим к неверному выводу (обманутое смещением агрегации ).

Эта тема была частым увлечением покойного Дэвида Фридмана ; посмотрите эту статью , например. В этой статье Freedman предоставляет средства для ограничения вероятностей на индивидуальном уровне с использованием групповых данных.


@Michelle сравнивает парадокс Симпсона в другом месте в этом CW, и в качестве хорошего примера предлагает парадокс Симпсона. Парадокс Симпсона и экологическая ошибка тесно связаны, но различны. Два примера различаются по характеру данных и анализу.

Стандартная формулировка парадокса Симпсона - двусторонняя таблица. В нашем примере предположим, что у нас есть индивидуальные данные, и мы классифицируем каждого человека как высокий или низкий доход. Мы получили бы итоговую таблицу непредвиденных расходов по результатам голосования 2х2. Мы увидим, что более высокая доля людей с высоким доходом проголосовала за демократа по сравнению с долей людей с низким доходом. Если бы мы создавали таблицу сопряженности для каждого состояния, мы бы увидели противоположную картину.

В экологической ошибке мы не сводим доход в дихотомическую (или, возможно, многохотомную) переменную. Чтобы получить уровень штата, мы получаем средний (или медианный) доход штата и долю голосов штата, проводим регрессию и обнаруживаем, что штаты с более высоким доходом с большей вероятностью проголосуют за демократа. Если бы мы хранили данные на индивидуальном уровне и выполняли регрессию отдельно по состоянию, мы бы обнаружили обратный эффект.

В итоге различия следующие:

  • Режим анализа : Мы могли бы сказать, что, следуя нашим навыкам подготовки к SAT, парадокс Симпсона заключается в таблицах непредвиденных обстоятельств, а экологическая ошибка - в коэффициентах корреляции и регрессии.
  • Степень агрегации / характера данных : в то время как пример парадокса Симпсона сравнивает два числа (доля голосов демократов среди лиц с высоким доходом и одинаковую для лиц с низким доходом), экологическая ошибка использует 50 точек данных ( т.е. каждый штат) для расчета коэффициента корреляции , Чтобы получить полную историю из парадоксального примера Симпсона, нам просто потребуются два числа из каждого из пятидесяти штатов (100 чисел), в то время как в случае экологической ошибки нам нужны данные индивидуального уровня (или иначе корреляции на уровне государства / наклоны регрессии).

Общее наблюдение
@NeilG комментирует, что это просто говорит о том, что у вас не может быть никакого выбора проблем смещения ненаблюдаемых / пропущенных переменных в вашей регрессии. Верно! По крайней мере, в контексте регрессии, я думаю, что почти любой «парадокс» - это просто частный случай смещения опущенных переменных.

Смещением выбора (см. Мой другой ответ на этом CW) можно управлять, включая переменные, которые управляют выбором. Конечно, эти переменные, как правило, не соблюдаются, что приводит к возникновению проблемы / парадокса. Ложная регрессия (другой мой ответ) может быть преодолена путем добавления тренда времени. Эти случаи говорят, по сути, что у вас достаточно данных, но нужно больше предикторов.

В случае экологической ошибки, это правда, вам нужно больше предикторов (здесь, специфические для государства уклоны и перехваты). Но вам также нужно больше наблюдений, индивидуальных, а не групповых наблюдений, чтобы оценить эти отношения.

(Между прочим, если у вас есть экстремальный выбор, когда переменная выбора прекрасно разделяет лечение и контроль, как в приведенном мной примере Второй мировой войны, вам может понадобиться больше данных для оценки и регрессии; там - сбитые плоскости.)


Как можно формализовать предположение о согласованности ? Это звучит как допущение, что в модели нет (причинных) противоречий, отсутствующих.
Нил Г

2
Кроме того, приведенный пример также является примером парадокса Симпсона, потому что обусловленность в государстве меняет соотношение между доходом и партией. Когда экологическая ошибка отличается от парадокса Симпсона?
Нейл

Я также хотел бы отметить, что делать выводы об ассоциациях или причинно-следственных связях на уровне групп, основанных на ассоциациях индивидуального уровня или причинно-следственных связях, также просто плохо: атомистическая ошибка, хорошо сформулированная здесь: [Diez-Roux, 1998] Diez-Roux, AV (1998). Возвращение контекста в эпидемиологию: переменные и ошибки в многоуровневом анализе. Американский журнал общественного здравоохранения , 88 (2): 216–222.
Алексис

43

Мой вклад - парадокс Симпсона, потому что:

  • Причины парадокса не интуитивны для многих людей, поэтому
  • может быть действительно трудно объяснить, почему результаты таковы, как они выкладывают людей на простом английском языке.

    Версия парадокса: статистическая значимость результата различается в зависимости от того, как данные разделены. Причина, как представляется, часто происходит из-за смешанной переменной.

Еще одна хорошая схема парадокса здесь .


4
+1, я думал о том, чтобы поставить это сам. Для тех , кому интересно, парадокс Симпсона также обсуждается на резюме здесь: stats.stackexchange.com/questions/21896
Гун

3
Есть несколько примеров парадокса Симпсона, упомянутых в этом вопросе по математике .
Майк Спиви

32

В статистике нет парадоксов, есть только загадки, ожидающие своего решения.

Тем не менее, мой любимый это два конверта "парадокс" . Предположим, я положил перед вами два конверта и сказал, что в одном из них содержится в два раза больше денег, чем в другом (но не в каком именно). Вы рассуждаете следующим образом. Предположим, что левый конверт содержит , тогда с вероятностью 50% правый конверт содержит а с вероятностью 50% он содержит для ожидаемого значения . Но, конечно, вы можете просто перевернуть конверты и сделать вывод, что левый конверт содержит в раза больше значения правого конверта. Что случилось?x2x0.5x1.25x1.25


блестящий парадокс - интересно, если мы перейдем к «второй» интерпретации в википедии и попытаемся вычислить , мы обнаружим, что для предотвращения предпочтений при переключении нам требуется где . Решение для означает, что мы получаем . Аналогично мы можем вычислить где и получить .... Биззаре! E[B|A=a]E[B|A=a]=a=2ap+a2(1p)p=Pr(A<B|A=a)pp=13E[A|B=b]=b=2bq+b2(1q)q=Pr(B<A|B=b)q=13
вероятностная

6
Я выступил с докладами об этом парадоксе, в котором игра на самом деле играется с аудиторией, с реальными суммами денег (обычно чеком в принимающее учреждение). Это привлекает их внимание ...
whuber

Думайте, что я решил это ... Парадокс разрешается, когда мы распознаем, что парадокс двух конвертов неправильно предлагает 1) есть три возможных величины: 0,5x, x и 2x, когда в конвертах есть только две величины (скажем, х и 2x) и 2) что мы априори знаем, что левый конверт содержит x (в этом случае правый конверт будет содержать 2x со 100% уверенностью!). Учитывая возможные значения x и 2x, случайно назначенные двум конвертам, правильный ответ - ожидаемое значение 1,5x, выбираю ли я левый или правый конверт.
RobertF

3
@RobertF Ситуация более сложная. Предположим, что известно, что деньги распределяются в двух конвертах следующим образом. Бросайте честную монету, пока она не приземлится, и посчитайте число n раз, когда она была брошена. Поместите 2 ^ n долларов в один конверт и 2 ^ (n + 1) в другой. Теперь вы можете выполнять очень точные вычисления ожиданий и при этом сохранять парадокс.
Итай Вайс

31

Проблема Спящей Красавицы .

Это недавнее изобретение; это было широко обсуждено в небольшом количестве журналов философии за последнее десятилетие. Есть убежденные сторонники двух очень разных ответов («Halfers» и «Thirders»). Это поднимает вопросы о природе веры, вероятности и обусловленности и побуждает людей вызывать квантово-механическую интерпретацию «многих миров» (среди прочих странных вещей).

Вот заявление из Википедии:

Спящая красавица добровольно проходит следующий эксперимент, и ей сообщают все следующие детали. В воскресенье ее усыпляют. Затем подбрасывается честная монета, чтобы определить, какая экспериментальная процедура проводится. Если монета выпадает из головы, Красота просыпается и дает интервью в понедельник, и тогда эксперимент заканчивается. Если монета выпадает из хвоста, ее разбудят и дадут интервью в понедельник и вторник. Но когда ее снова усыпляют в понедельник, ей дают дозу вызывающего амнезию лекарства, которая гарантирует, что она не сможет вспомнить свое предыдущее пробуждение. В этом случае эксперимент заканчивается после ее интервью во вторник.

Каждый раз, когда Спящая красавица пробуждается и дает интервью, ее спрашивают: «Каково ваше доверие сейчас к предположению, что монета приземлилась?»

Позиция Тирдера заключается в том, что СБ должен ответить «1/3» (это простой расчет теоремы Байеса), а позиция Хэлфера заключается в том, что она должна сказать «1/2» (потому что это правильная вероятность для справедливой монеты, очевидно! ). ИМХО, вся дискуссия основывается на ограниченном понимании вероятности, но не в этом ли смысл изучения явных парадоксов?

Принц Флоримон находит спящую красавицу

(Иллюстрация из проекта Гутенберга .)


Хотя это не то место, где можно пытаться разрешить парадоксы, а только утверждать их, я не хочу оставлять людей висящими, и я уверен, что большинство читателей этой страницы не хотят разбираться с философскими объяснениями. Мы можем взять совет от Е. Т. Джейнса , который заменяет вопрос «как мы можем построить математическую модель человеческого здравого смысла» - что нам нужно для того, чтобы продумать проблему «Спящей красавицы» - на «Как мы можем построить машину? который бы осуществил полезные правдоподобные рассуждения, следуя четко определенным принципам, выражающим идеализированный здравый смысл? ». Таким образом, если хотите, замените SB на мыслящего робота Джейнса. Вы можете клонироватьэтот робот (вместо того, чтобы вводить причудливое лекарство от амнезия) для части эксперимента во вторник, тем самым создавая четкую модель установки SB, которую можно однозначно проанализировать. Моделирование этого стандартным способом с использованием статистической теории принятия решений показывает, что на самом деле здесь задаются два вопроса ( какова вероятность того, что честная монета приземляется головами? И какова вероятность того, что монета приземлилась головами, при условии, что вы были клон который был разбужен? ). Ответ либо 1/2 (в первом случае), либо 1/3 (во втором, используя теорему Байеса). Никакие квантово-механические принципы не были вовлечены в это решение :-).


Рекомендации

Арнцениус, Франк (2002). Размышления о спящей красавице . Анализ 62,1 с. 53-62. Эльга, Адам (2000). Вера в себя и проблема спящей красавицы. Анализ 60 стр 143-7.

Франчески, Пол (2005). Спящая красавица и проблема сокращения мира . Препринт.

Гройсман, Берри (2007). Конец кошмара Спящей красавицы .

Льюис Д. (2001). Спящая красавица: ответ Эльге . Анализ 61,3 с. 171-6.

Папино, Давид и Виктор Дура-Вила (2008). Треть и эвереттианец: ответ на «Квантовая спящая красавица» Льюиса .

Пуст, Джоэл (2008). Хорган о Спящей красавице . Синтез 160 с. 97-101.

Винеберг, Сьюзен (без даты, возможно, 2003). Предостерегающая сказка красоты .

Все можно найти (или, по крайней мере, несколько лет назад) в Интернете.


1
Как вы думаете, одинаково эффективно сформулировать решение в терминах «базовых единиц»? Под этим я подразумеваю, что вы должны рассмотреть, является ли базовый блок человеком или собеседованием У половины людей будет голова, но у 1/3 интервью будет. Затем, чтобы выбрать нашу базовую единицу, мы можем вернуться к вопросу и фразе: «Какова вероятность того, что это интервью связано с результатом« головы »?»
Джонатан

1
С.Б. не знает, сколько было проведено интервью, и вопрос заключается в ее оценке вероятности, а не в оценке экспериментаторов. С ее точки зрения, количество интервью не может быть определено.
whuber

2
Я думаю, тебе следует сначала прочитать аргументы в литературе, Аарон. (Признаюсь, что я третья сторона, но я думаю, что халферы не сочтут ваши аргументы убедительными. По крайней мере, вам нужно показать им, почему их аргументы
неверны

1
Честно, @whuber, теперь я еще раз посмотрел на литературу. Я читаю « Спящую красавицу» Эллиса : ответ Эльге . Это предложение меня беспокоит в начале раздела 4. Мой аргумент ». «Только новые соответствующие доказательства, центрированные или нецентрированные, вызывают изменения в доверии». Я подумаю дальше и, возможно, еще раз напишу об этом в блоге. Я долго обсуждал это с семью другими аспирантами!
Аарон МакДейд

1
Можно ли Спящей красавице смотреть на календарь при пробуждении? Если в понедельник, то она должна ответить P (X = голова) = 0,5. Если вторник, то P (X = голова) = 0.
RobertF

25

St.Petersburg парадокс , который заставляет вас думать по- другому на понятии и значении ожидаемого значения . Интуиция (в основном для людей с опытом работы в статистике) и расчеты дают разные результаты.


5
Вот еще одно, что мне нравится, и это кажется настолько недостаточно известным, что к нему не привязано имя, но оно имеет похожий вкус и интересный статистический урок: существует последовательность независимых случайных величин со средним нулем и равномерно ограниченная дисперсия такая, что сходится по распределению к стандартному нормальному (так же, как CLT). Однако, (или ваше любимое положительное число). X1,X2,nX¯nN(0,1)Var(nX¯n)17
кардинал

@cardinal Есть ли шанс, что вы могли бы опубликовать некоторые детали этого в качестве отдельного ответа?
Серебряная рыба

@Silver Пусть каждое имеет нормальное распределение со средним нулем и дисперсией . Что бы выглядело асимптотически, чтобы сходился? Xif(n)fVar(nX¯n)
whuber

@whuber Предположительно я должен прочитать это как имеющий дисперсию ; в этом случае (используя независимость ) мы имеем поэтому мы нужно, чтобы последовательность суммировалась по Чезаро, если должен сходиться? Xif(i)XiVar(nX¯n)=1ni=1nf(i)f(i)Var(nX¯n)
Серебряная рыба

22

Джеффрис-Линдли парадокс , который показывает , что при некоторых обстоятельствах по умолчанию и Байес частотных метод проверки гипотез могут дать совершенно противоречивые ответы. Это действительно заставляет пользователей задуматься о том, что именно означают эти формы тестирования, и подумать, действительно ли этого хотят. Для недавнего примера см. Это обсуждение .


20

Есть известная ошибка двух девочек:

В семье с двумя детьми, каковы шансы, что если один из детей - девочка , то оба ребенка - девочки?

Большинство людей интуитивно говорят 1/2, но ответ таков 1/3. По сути, проблема заключается в том, что равномерный выбор «одной девушки из всех девочек с одним братом и сестрой» наугад не то же самое, что равномерный выбор «одной семьи из всех семей с двумя детьми и по крайней мере одной девушкой».


Этот достаточно прост, чтобы взаимодействовать с интуицией, как только вы это поймете, но есть более сложные версии, которые труднее понять:

В семье с двумя детьми, каковы шансы, что если один из детей - мальчик, родившийся во вторник , что оба ребенка - мальчики? (Ответ: 13/27)

Какова вероятность того, что в семье с двумя детьми, если один из детей - девочка по имени Флорида , оба ребенка - девочки? (Ответ: очень близко к 1/2, предполагая, что «Флорида» - чрезвычайно редкое имя)


Больше информации обо всех этих головоломках можно найти в этом ответе .
(Также: больше информации о мальчике, рожденной во вторник , больше информации о девочке по имени Флорида )


3
Ответ 1/3не 2/3обязательно? Только один изGB, BG, GG
Мартин Смит

3
Статья "Мальчик родился во вторник" хороша. Его основной момент, который сделан очень четко («проблема недоопределена»), заключается в том, что ответ зависит от модели вероятности, которую вы принимаете. Сказать, что «ответ» 13/27, вводит в заблуждение (в лучшем случае).
whuber

@Martin: хе-хе ой :)
BlueRaja - Дэнни Пфлюгофт

2
Причина, по которой эти проблемы настолько запутаны, состоит в том, что вопрос сформулирован так, что очень трудно определить, что такое пространство гипотез. Это, в свою очередь, вводит в заблуждение относительно того, каковы «одинаково вероятные» случаи на самом деле (и, следовательно, что следует учитывать).
вероятностная

1
Я чувствую себя дерзким, и обратите внимание, что формулировка вопроса на самом деле только указывает на то, что дети могут обмениваться с точки зрения их порядка - знание, что ребенок - девочка, не говорит нам, были ли они первым или вторым ребенком , Это означает, что . Но больше ничего! Таким образом, все, что мы действительно можем сказать, это то, что вероятность другой девушки в том, что она равна . Чтобы получить числовое значение, необходимо назначить вероятности, что невозможно сделать с помощью предоставленной информации. p(B1G2)=p(G1B2)p(G1G2)2p(B1G2)+p(G1G2)
вероятностная

12

Извините, но я не могу с собой поделать (мне тоже нравятся статистические парадоксы!).

Опять же, возможно, это не парадокс как таковой, а еще один пример смещения опущенных переменных.

Ложная причинно-следственная связь / регрессия
Любая переменная с временной тенденцией будет коррелировать с другой переменной, которая также имеет временную тенденцию. Например, мой вес от рождения до 27 лет будет сильно коррелировать с весом от рождения до 27 лет Очевидно, что мой вес не вызван ваш вес. Если бы это было так, я бы попросил вас чаще ходить в спортзал, пожалуйста.

Вот объяснение пропущенных переменных. Пусть мой вес будет а ваш вес будет , где xtyt

xt=α0+α1t+ϵt andyt=β0+β1t+ηt.

Тогда регрессия имеет пропущенную переменную - тренд времени - которая коррелируется с включенной переменной . Следовательно, коэффициент будет смещен (в этом случае он будет положительным, так как наши веса растут со временем).

yt=γ0+γ1xt+νt
xtγ1

Когда вы выполняете анализ временных рядов, вы должны быть уверены, что ваши переменные являются постоянными, иначе вы получите эти ложные результаты.

(Я полностью признаю, что я плагиат своего собственного ответа, данного здесь .)


11

Одна из моих любимых - проблема Монти Холла. Я помню, как узнал об этом в классе элементарной статистики, рассказывая отцу, как мы оба были в недоумении, я моделировал случайные числа, и мы пытались решить проблему. К нашему изумлению, это было правдой.

В основном проблема состоит в том, что если у вас было три двери на игровом шоу, за которыми одна является призом, а две другие ничем, если вы выбрали дверь, а затем вам сообщили о оставшихся двух дверях, одна из двух не была дверью приза и разрешено переключать ваш выбор, если вы так решили, вам следует переключить текущую дверь на оставшуюся дверь.

Вот ссылка на симуляцию R: LINK


7

Парадокс Паррондо:

Из википедии : «Парадокс Паррондо, парадокс в теории игр, описан так: комбинация проигрышных стратегий становится выигрышной стратегией. Он назван в честь своего создателя Хуана Паррондо, который открыл парадокс в 1996 году. Более подробное описание :

Существуют пары игр, в каждой из которых вероятность проигрыша выше, чем выигрыша, для которых можно построить выигрышную стратегию, играя в игры поочередно.

Паррондо придумал парадокс в связи с анализом броуновского храповика, мысленного эксперимента о машине, которая якобы извлекает энергию из случайных тепловых движений, популяризированной физиком Ричардом Фейнманом. Однако парадокс исчезает при тщательном анализе ".

Каким бы заманчивым ни казался этот парадокс финансовой толпе, у него есть требования, которые не всегда доступны в финансовых временных рядах. Даже при том, что некоторые из компонентных стратегий могут быть проигрышными, стратегии компенсации требуют неравных и стабильных вероятностей, значительно превышающих или меньших 50%, для того, чтобы усиливающий эффект вступил в силу. Было бы трудно найти финансовые стратегии, при которых и другие, , в течение длительных периодов.PB(W)=3/4+ϵPA(W)=1/10+ϵ

Есть также более недавний связанный парадокс под названием « смесь аллисонов », который показывает, что мы можем взять два IID и некоррелированные ряды и случайным образом скремблировать их так, чтобы определенные смеси могли создать результирующий ряд с ненулевой автокорреляцией.


6

Интересно, что проблема двух детей и проблема Монти-Холла так часто упоминаются вместе в контексте парадокса. Оба иллюстрируют кажущийся парадокс, впервые проиллюстрированный в 1889 году, под названием «Парадокс Бертранса», который можно обобщить, чтобы представить любой из них. Я нахожу это самым интересным «парадоксом», потому что одни и те же очень образованные, очень интеллигентные люди отвечают на эти две проблемы противоположным образом в отношении этого парадокса. Это также сравнивается с принципом, используемым в карточных играх, таких как бридж, известный как принцип ограниченного выбора, где его разрешение проверено временем.

Скажем, у вас есть случайно выбранный предмет, который я назову «коробкой». Каждый возможный блок имеет по крайней мере одно из двух симметричных свойств, но некоторые имеют оба. Я назову свойства "золото" и "серебро". Вероятность того, что коробка - это просто золото, равна P; и поскольку свойства симметричны, P также является вероятностью того, что коробка является просто серебром. Это делает вероятность того, что у блока есть только одно свойство 2P, и вероятность того, что у него есть оба свойства 1-2P.

Если вам говорят, что коробка - это золото, но не в том, серебро ли это, вы можете испытать искушение сказать, что вероятность того, что это просто золото, - это P / (P + (1-2P)) = P / (1-P). Но тогда вам придется указать ту же вероятность для одноцветной коробки, если вам скажут, что это серебро. И если эта вероятность равна P / (1-P) всякий раз, когда вам говорят только один цвет, она должна быть P / (1-P), даже если вам не говорят цвет. Тем не менее, мы знаем, что это 2P из последнего абзаца.

Этот очевидный парадокс разрешается, если заметить, что если у коробки есть только один цвет, нет никакой двусмысленности относительно того, какой цвет вам скажут. Но если есть два, есть подразумеваемый выбор. Вы должны знать, как был сделан этот выбор, чтобы ответить на вопрос, и в этом корень очевидного парадокса. Если вам не сказали, вы можете только предположить, что цвет был выбран случайным образом, делая ответ P / (P + (1-2P) / 2) = 2P. Если вы настаиваете на том, что ответом является P / (1-P), вы подразумеваете, что не было никакой возможности упомянуть другой цвет, если только он не был единственным.

В задаче Монти-Холла аналогия для цветов не очень интуитивна, но P = 1/3. Ответы, основанные на двух неоткрытых дверях, изначально имеющих одинаковую вероятность получения приза, предполагают, что Монти Холл должен был открыть дверь, которую он сделал, даже если у него был выбор. Этот ответ P / (1-P) = 1/2. Ответ, позволяющий ему выбирать случайным образом, равен 2P = 2/3 для вероятности того, что переключение выиграет.

В задаче «Два ребенка» цвета в моей аналогии довольно хорошо сравниваются с полами. В четырех случаях P = 1/4. Чтобы ответить на вопрос, нам нужно знать, как выяснилось, что в семье была девушка. Если с помощью этого метода можно было узнать о мальчике в семье, то ответом будет 2P = 1/2, а не P / (1-P) = 1/3. Это немного сложнее, если вспомнить имя Флорида, или «родился во вторник», но результаты те же. Ответ точно равен 1/2, если бы был выбор, и большинство формулировок проблемы подразумевают такой выбор. И причина «изменения» с 1/3 на 13/27 или с 1/3 на «почти 1/2» кажется парадоксальной и неинтуитивной, потому что предположение об отсутствии выбора не является интуитивным.

В Принципе ограниченного выбора, скажем, вам не хватает некоторого набора эквивалентных карт - таких как Джек, Королева и Король одной масти. Шансы начинаются даже из-за того, что любая конкретная карта принадлежит конкретному противнику. Но после того, как противник разыгрывает одну, его шансы получить любую другую уменьшаются, потому что он мог разыграть эту карту, если бы у нее была такая.


Я не слежу за вашими вероятностями. Если под "симметричным" вы имеете в виду (что, я думаю, вы имеете в виду), то не должна ли вероятность обоих быть , а не ? (Это предполагает независимость, что, я думаю, вы имеете в виду, хотя это поможет сформулировать это в явном виде.) Кроме того, я думаю, что вероятность того, что блок не является ни одним, не должна быть , а не , не должна не так ли? Их можно легко увидеть , если мы рассмотрим случай , когда --then & , если на "симметричный" вы имеете в виду , что & свойства совершенно зависимы. Извини за придирку.PG=PSP22P(1P)212PPG=PS=.8PGS=1.6PGS=.6P=.5
gung

Извините, может быть, я не очень хорошо объяснил это, пытаясь быть максимально кратким. Мой P не был вероятностью, что коробка имеет цвет золота, это была вероятность, что это было только золото. Вероятность того, что он имеет цвет золота, равна 1-P. И хотя эти два свойства симметричны, они не должны быть независимыми, поэтому вы не можете просто умножить вероятности. Кроме того, ни одна коробка не является "ни". Бертран использовал три коробки с двумя монетами в каждой: золото + золото, золото + серебро и серебро + серебро. Шкатулка с любым количеством золотых монет - это «золото» в моем обобщении.
JeffJo

+1, это помогает. Теперь я вижу фразу «хотя бы один из двух» и слово «просто», которую я, должно быть, перебрал.
gung

6

Мне нравится следующее: Хост использует неизвестный дистрибутив на чтобы независимо выбрать два числа . Единственное, что игроку известно о распределении, это то, что . Затем игроку показывают номер и его просят угадать, или . Ясно, что если игрок всегда угадывает то игрок будет прав с вероятностью . Однако, по крайней мере, удивительно, если не парадоксально, игрок может улучшить эту стратегию. Боюсь, у меня нет ссылки на проблему (я слышал это много лет назад во время семинара).x , y [ 0 , 1 ] P ( x = y ) = 0 x y > x y < x y > x 0,5[0,1]x,y[0,1]P(x=y)=0xy>xy<xy>x0.5


2
Уважаемый Иттай, я верю, что Том Ковер является источником этой проблемы. Я думаю, что это также перечислено в его Открытых Проблемах в Коммуникации и Вычислении , но у меня нет удобной проверки. Это хорошая проблема. Ограничение на , или даже на случайный (или , если на то пошло), несущественно. Приветствия. у х[0,1]yx
кардинал

2

Я нахожу упрощенную графическую иллюстрацию экологической ошибки (здесь парадокс голосования богатого государства / бедного государства) помогает мне на интуитивном уровне понять, почему мы наблюдаем изменение схемы голосования, когда мы агрегируем население штатов:

введите описание изображения здесь


3
Это хороший пример, но я думаю, что это парадокс Симпсона: en.wikipedia.org/wiki/Simpson%27s_paradox
Ник

1
@Nick: этот конкретный пример на самом деле отличается от парадокса Симпсона, но может быть трудно понять, какая ошибка / парадокс применима в конкретной ситуации, потому что они выглядят одинаково статистически. Разница в том, что SP - это «ложный эффект», который появляется только при анализе подгрупп. Эта тенденция, тем не менее, является «истинным эффектом», который проявляется только при анализе подгрупп. В этом случае предполагается, что, хотя доход как необработанное число не влияет на шаблоны голосования в совокупности, доход, связанный с вашими соседями (вашим штатом), влияет на шаблоны голосования.
Джонатан

Это экологическая ошибка, обсуждаемая ниже.
Чарли

3
@Charlie «ниже» и «выше» являются функциями любого способа сортировки читателем страницы (активный / самый старый / голос), и в любом случае порядок в соответствии с некоторыми из критериев сортировки может изменяться со временем (включая значение по умолчанию) , Поэтому, вероятно, лучше упомянуть человека, который разместил обсуждение, на которое вы ссылаетесь, или даже дать ссылку на него.
Glen_b

2

Предположим, вы получили данные о рождении в королевской семье какого-то королевства. В родословной отмечалось каждое рождение. Особенностью этой семьи было то, что родители пытались завести ребенка только тогда, когда сначала родился мальчик, а потом уже не было детей.

Таким образом, ваши данные могут выглядеть примерно так:

G G B
B
G G B
G B
G G G G G G G G G B
etc.

Будет ли доля мальчиков и девочек в этой выборке отражать общую вероятность рождения мальчика (скажем, 0,5)? Ответ и объяснение можно найти в этой теме .


2
Этот ответ читается как головоломка, а не как парадокс. Я могу себе представить, почему вы хотели опубликовать его таким образом, но я думаю, что для того, чтобы этот ответ квалифицировался как парадокс и соответствовал этой теме, вам нужно быть более явным.
амеба

2
Этот вопрос (с обменом мальчиками и девочками) задавался по адресу stats.stackexchange.com/questions/93830 , на который было получено большое количество ответов - не совсем в согласии! (Я научился чему-то, серьезно
относясь

@whuber спасибо за ссылку! Я добавил это в описание.
Тим

2

Это снова парадокс Симпсона, но «как в обратном направлении», так и вперед, взято из новой книги Иудеи Перл « Причинный вывод в статистике: учебник для начинающих» [^ 1]

Классический парадокс Симпона работает следующим образом: попробуйте выбрать между двумя врачами. Вы автоматически выбираете тот, который имеет лучшие результаты. Но предположим, что тот, у кого лучшие результаты, выбирает самые простые случаи. Более плохой отчет другого - следствие более хитрой работы.

Теперь, кого вы выбираете? Лучше посмотреть на результаты, стратифицированные по сложности, а затем принять решение.

Есть и другая сторона медали (еще один парадокс), которая говорит о том, что стратифицированные результаты также могут привести вас к неправильному выбору.

На этот раз подумайте, хотите ли вы использовать наркотик или нет. Препарат обладает токсическим побочным эффектом, но его терапевтический механизм действия заключается в снижении артериального давления. В целом, препарат улучшает результаты в популяции, но когда расслаивания на доочистки кровяного давления результаты хуже в обоих низких и групп высокого кровяного давления. Как это может быть правдой? Потому что мы непреднамеренно стратифицировали результат, и в каждом результате все, что остается наблюдать, - это токсический побочный эффект.

Чтобы уточнить, представьте, что лекарство предназначено для устранения разбитых сердец, и оно делает это путем понижения кровяного давления, и вместо стратификации по кровяному давлению мы расслаиваем фиксированные сердца. Когда препарат работает, сердце фиксируется (и артериальное давление будет ниже), но некоторые пациенты также получат токсический побочный эффект. Поскольку препарат работает, в группе «фиксированное сердце» будет больше пациентов, принимавших препарат, чем в группе «разбитых» пациентов. Больше пациентов, принимающих препарат, означает больше пациентов, получающих побочные эффекты, и, по-видимому, (но ложно) лучшие результаты для пациентов, которые не принимали препарат.

Пациентам, которые поправляются без приема препарата, просто везет. Пациенты, которые принимали препарат и поправлялись, - это смесь тех, кто нуждался в препарате, чтобы поправиться, и тех, кому все равно повезло бы. Обследование только пациентов с «фиксированным сердцем» означает исключение пациентов, которые были бы исправлены, если бы они принимали препарат. Исключение таких пациентов означает исключение вреда от отказа от приема препарата, что, в свою очередь, означает, что мы видим только вред от приема препарата.

Парадокс Симпсона возникает, когда есть причина для результата, отличного от лечения, такого как тот факт, что ваш врач делает только сложные случаи. Контроль за общей причиной (сложные и простые случаи) позволяет нам увидеть истинный эффект. В последнем примере мы непреднамеренно стратифицировали результат, а не причину, что означает, что истинный ответ находится в совокупности, а не в стратифицированных данных.

[^ 1]: Перл Дж. Причинный вывод в статистике. Джон Вили и сыновья; 2016


2

Один из моих «фаворитов», означающий, что это то, что сводит меня с ума от интерпретации многих исследований (и часто самими авторами, а не только СМИ), - это уклон выживания .

Один из способов представить это - предположить, что есть какой-то эффект, который очень вреден для субъектов, настолько, что у него есть очень хороший шанс убить их. Если субъекты подвергаются воздействию этого эффекта до начала исследования , то к началу исследования субъекты, которые еще живы, имеют очень высокую вероятность того, что они будут необычайно устойчивыми. Буквально естественный отбор на работе. Когда это произойдет, исследование обнаружит, что подвергшиеся воздействию люди необычайно здоровы (поскольку все нездоровые люди уже умерли или постарались прекратить подвергаться воздействию). Это часто неверно истолковывается как подразумевающее, что воздействие на самом деле полезно для субъектов. Это результат игнорирования усечения (т.е. игнорирование предметов, которые умерли и не добрались до исследования).

Точно так же субъекты, которые перестают подвергаться воздействию во время исследования, часто невероятно нездоровы: это потому, что они поняли, что продолжительное воздействие, вероятно, убьет их. Но исследование просто отмечает, что те, кто бросил курить, очень вредны для здоровья!

Ответ @ Чарли о бомбардировщиках Второй мировой войны может рассматриваться как пример этого, но есть также много современных примеров. Недавним примером являются исследования, сообщающие, что пить 8+ чашек кофе в день(!!) связано с гораздо более высоким уровнем здоровья сердца у лиц старше 55 лет. Множество людей с докторской степенью расценили это как «пить кофе полезно для вашего сердца!», Включая авторов исследования. Я читаю это, поскольку у вас должно быть невероятно здоровое сердце, чтобы пить 55 чашек кофе в день после 55 лет и не иметь сердечного приступа. Даже если это вас не убьет, в тот момент, когда что-то беспокоит ваше здоровье, все, кто вас любит (плюс ваш врач), сразу же призовут вас бросить пить кофе. Дальнейшие исследования показали, что употребление такого большого количества кофе не оказало благотворного влияния в более молодых группах, что, как я полагаю, является еще одним свидетельством того, что мы наблюдаем эффект выживания, а не положительный причинный эффект. Тем не менее, есть много кандидатов наук, которые говорят:


Я не уверен в твоей интерпретации. В Норвегии употребление 8 чашек кофе в день не является чем-то необычным, среднее значение (включая детей и других не пьющих) составляет около двух чашек в день. В Финляндии среднее значение составляет около 2,5 чашки в день. Раньше я пил по 10 чашек в день, но уже не так.
kjetil b halvorsen

1

Я удивлен, что никто еще не упомянул парадокс Ньюкомба , хотя он более интенсивно обсуждается в теории принятия решений. Это определенно один из моих любимых.


-2

Пусть x, y и z некоррелированные векторы. Тем не менее, x / z и y / z будут коррелированы.


2
Почему это парадокс? это кажется интуитивно понятным.
lcrmorin

2
Я был бы удивлен, если бы это не было обычно так.
Glen_b

1
x/zx/zzX,Y,Z
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.