Как решить парадокс Симпсона?


35

Парадокс Симпсона - это классическая головоломка, обсуждаемая на вводных курсах статистики по всему миру. Тем не менее, мой курс позволил мне просто отметить, что проблема существует и не дает решения. Я хотел бы знать, как решить парадокс. То есть, когда сталкиваешься с парадоксом Симпсона, когда два разных варианта, кажется, конкурируют за то, чтобы быть лучшим выбором в зависимости от того, как данные разделены, какой выбор следует выбрать?

Чтобы конкретизировать проблему, давайте рассмотрим первый пример, приведенный в соответствующей статье Википедии . Он основан на реальном исследовании о лечении камней в почках.

введите описание изображения здесь

Предположим, я врач, и тест показывает, что у пациента камни в почках. Используя только информацию, представленную в таблице, я хотел бы определить, следует ли мне принимать лечение A или лечение B. Похоже, что если я знаю размер камня, то нам следует предпочесть лечение A. Но если мы этого не сделаем, то мы должны предпочесть лечение Б.

Но рассмотрим другой вероятный способ получить ответ. Если камень большой, мы должны выбрать A, а если он маленький, мы должны снова выбрать A. Поэтому, даже если мы не знаем размер камня, по методу наблюдений мы видим, что мы должны предпочесть A. Это противоречит нашим предыдущим рассуждениям.

Итак: пациент заходит ко мне в кабинет. Тест показывает, что у них есть камни в почках, но не дает мне информации об их размере. Какое лечение я рекомендую? Есть ли общепринятое решение этой проблемы?

Википедия намекает на разрешение, используя «причинные байесовские сети» и «черный ход» теста, но я понятия не имею, что это такое.


2
В Базовом Симпсоне Paradox ссылка упомянутая выше пример данных наблюдений. Мы не можем однозначно принять решение между больницами, потому что пациенты, вероятно, не были случайно распределены по больницам, и поставленный вопрос не дает нам возможности узнать, например, была ли, например, в одной больнице пациенты с более высоким риском. Разбивка результатов по операциям AE не решает эту проблему.
Эмиль Фридман

@ EmilFriedman Я согласен, это правда, что мы можем однозначно выбирать между больницами. Но, безусловно, данные поддерживают одно над другим. (Это неправда, что данные ничему не научили нас о качестве больниц.)
Картошка

Ответы:


14

В своем вопросе вы утверждаете, что не знаете, что такое «причинно-следственные байесовские сети» и «тесты за чертой».

Предположим, у вас есть причинно-следственная байесовская сеть. То есть ориентированный ациклический граф, узлы которого представляют предложения, а чьи ориентированные ребра представляют потенциальные причинно-следственные связи. У вас может быть много таких сетей для каждой из ваших гипотез. Есть три способа сделать убедительный аргумент о силе или существовании ребра .A?В

Самый простой способ - это вмешательство. Это то, что предлагают другие ответы, когда говорят, что «правильная рандомизация» решит проблему. Вы случайно заставить иметь разные значения и измерить B . Если вы можете сделать это, вы сделали, но вы не всегда можете сделать это. В вашем примере, может быть неэтично давать людям неэффективное лечение смертельных заболеваний, или они могут иметь какое-то мнение при лечении, например, они могут выбрать менее суровое (лечение B), когда их камни в почках маленькие и менее болезненные.AВ

Второй способ - метод входной двери. Вы хотите , чтобы показать , что действует на B через C , т.е. A C B . Если предположить , что C потенциально вызван A , но не имеют никаких других причин, и вы можете измерить , что C коррелируют с A и B коррелируют с C , то можно сделать вывод , доказательства должны быть протекающими через C . Исходный пример: А курит, Б - рак, СAВСAСВСAСAВССAВСэто накопление смолы. Смола может поступать только от курения, и это коррелирует как с курением, так и с раком. Таким образом, курение вызывает рак через смолу (хотя могут быть и другие причины, которые смягчают этот эффект).

Третий способ - метод задней двери. Вы хотите , чтобы показать , что и B не коррелируют из - за «задней двери», например , общее дело, то есть A D B . Так как вы предполагали причинную модель, вы просто должны блокировать все пути (путем наблюдения переменных и кондиционирования на них) , что доказательства могут течь вверх от А и до Б . Это немного сложно, чтобы заблокировать эти пути, но Перл дает четкий алгоритм, который позволяет вам знать, какие переменные вы должны наблюдать, чтобы заблокировать эти пути.AВADВAВ

Ганг прав, что с хорошей рандомизацией, противники не будут иметь значения. Поскольку мы предполагаем, что вмешательство в гипотетическую причину (лечение) недопустимо, любая распространенная причина между гипотетической причиной (лечение) и следствием (выживание), такая как возраст или размер почечного камня, будет мешающей. Решение состоит в том, чтобы сделать правильные измерения, чтобы заблокировать все задние двери. Для дальнейшего чтения смотрите:

Жемчужина, Иудея. «Причинные диаграммы для эмпирических исследований». Биометрика 82,4 (1995): 669-688.


Чтобы применить это к вашей проблеме, давайте сначала нарисуем причинный график. (Лечение предшествующее) мочекаменного размер и типа лечения Y оба являются причинами успеха Z . X может быть причиной Y, если другие врачи назначают лечение в зависимости от размера почечного камня. Ясно , что не существует других причинно - следственные связи между X , Y и Z . Y идет после X, поэтому оно не может быть его причиной. Аналогично Z приходит после того, как X и Y .ИксYZИксYИксYZYИксZИксY

Поскольку является частой причиной, его следует измерить. Экспериментатор должен определить совокупность переменных и потенциальных причинно-следственных связей . Для каждого эксперимента экспериментатор измеряет необходимые «переменные задней двери», а затем вычисляет распределение предельной вероятности успеха лечения для каждой конфигурации переменных. Для нового пациента вы измеряете переменные и следите за лечением, указанным предельным распределением. Если вы не можете измерить все или у вас нет большого количества данных, но что-то знаете об архитектуре отношений, вы можете выполнить «распространение убеждений» (байесовский вывод) в сети.Икс


2
Очень хороший ответ. Не могли бы вы вкратце сказать, как применить эту структуру к примеру, который я привел в вопросе? Дает ли он ожидаемый ответ (А)?
Картофель

Благодарность! Знаете ли вы хорошее, краткое введение в «пропаганду веры»? Мне интересно больше узнать.
Картошка

@Potato: Я узнал об этом из его книги «Вероятностные рассуждения в интеллектуальных системах». В Интернете есть много учебных пособий, но трудно найти тот, который создает интуицию, а не просто представляет алгоритм.
Нил Г

22

У меня есть предварительный ответ, который обсуждает здесь парадокс Симпсона: парадокс Симпсона . Это может помочь вам прочитать это, чтобы лучше понять это явление.

Короче говоря, парадокс Симпсона возникает из-за смешения. В вашем примере лечение запутано* с видом камней в почках у каждого пациента. Из полной таблицы результатов мы знаем, что лечение А всегда лучше. Таким образом, врач должен выбрать лечение A. Единственная причина, по которой лечение B выглядит лучше в совокупности, заключается в том, что оно чаще назначалось пациентам с менее тяжелым состоянием, тогда как лечение A назначалось пациентам с более тяжелым состоянием. Тем не менее, лечение А прошло лучше при обоих состояниях. Как врач, вас не волнует тот факт, что в прошлом худшее лечение назначалось пациентам с менее выраженным состоянием, вы заботитесь только о пациенте до вас, и если вы хотите, чтобы этот пациент улучшился, вы предоставите их с лучшим доступным лечением.

* Обратите внимание, что цель проведения экспериментов и рандомизации лечения заключается в том, чтобы создать ситуацию, в которой лечение не будет смешано. Если бы данное исследование было экспериментом, я бы сказал, что процесс рандомизации не смог создать справедливые группы, хотя, возможно, это было обсервационное исследование - я не знаю.


Вы выбираете подход нормализации, также предложенный другим ответом. Я считаю это проблематичным. Можно выставить два раздела одного и того же набора данных, которые дают разные выводы при нормализации. Смотрите мою ссылку и цитируйте в ответ на другой ответ.
Картошка

2
Я не читал стэнфордскую статью. Тем не менее, я не нахожу аргументацию в цитате убедительной. Вполне возможно, что в некоторых группах лечение B лучше, чем лечение A. Это не имеет значения. Если это верно для некоторого населения, это только потому, что характеристики населения смешаны. Вы сталкиваетесь с пациентом (а не с населением), и этот пациент с большей вероятностью улучшится в процессе лечения. Без учета того, имеет ли этот пациент большие или маленькие камни в почках. Вам следует выбрать лечение А.
Гунг - Восстановить Монику

2
Не смешан ли старый / старый раздел? Если нет, это не будет проблемой. Если это так, то мы будем использовать полную информацию, чтобы принять лучшее решение. Исходя из того, что мы знаем в настоящее время, «лечение B выглядит лучше всего в совокупности» - это красная сельдь. Это только кажется из-за смешения, но это (статистическая) иллюзия.
gung - Восстановить Монику

2
У вас был бы более сложный стол, в котором учитывались бы размер и возраст камней в почках. Вы можете посмотреть пример случая смещения по признаку пола в Беркли на странице Википедии.
gung - Восстановить Монику

1
Ненавижу растягивать комментарии так долго, но ... я бы не сказал, что парадокс всегда связан с путаницей. Это происходит из-за отношения между переменными, которое будет иметь смешанная переменная, но я бы не назвал все переменные, приводящие к парадоксу Симпсона, смешивающими (например, вес 30 лет и 90 лет x количество картофельных чипсов, потребляемых на анум - потому что 90-летние дети гораздо легче начать с того, что основной эффект от фишек может быть отрицательным без учета взаимодействия. Хотя я бы не назвал возраст недоразумением (см. первый рис. на странице Википедии).
Джон


4

Вы хотите решение одного примера или парадокс в целом? Для последнего не существует, потому что парадокс может возникнуть по нескольким причинам и должен оцениваться в каждом конкретном случае.

Парадокс в первую очередь проблематичен при представлении сводных данных и имеет решающее значение при обучении людей анализировать и представлять данные. Мы не хотим, чтобы исследователи сообщали сводные статистические данные, которые скрывают или запутывают шаблоны в данных, или аналитики данных, которые не могут распознать, какова реальная структура в данных. Решение не было дано, потому что нет единого решения.

В этом конкретном случае врач с таблицей всегда будет выбирать А и игнорировать итоговую строку. Не имеет значения, знают ли они размер камня или нет. Если бы кто-то, анализируя данные, сообщил только сводные строки, представленные для A и B, тогда возникла бы проблема, потому что данные, которые получил доктор, не отражали реальность. В этом случае им, вероятно, следовало бы также оставить последнюю строку вне таблицы, так как это правильно только при одной интерпретации того, какой должна быть сводная статистика (возможны две). Предоставление читателю возможности интерпретировать отдельные ячейки, как правило, дало бы правильный результат.

(Ваши обильные комментарии, по-видимому, наводят на мысль, что вас больше всего волнуют неравные проблемы N, а Симпсон шире этого, поэтому я не хочу останавливаться на проблеме неравных N дальше. Возможно, задайте более целенаправленный вопрос. Кроме того, вы, кажется, думаете, что я Я выступаю за вывод о нормализации. Я не согласен. Я утверждаю, что вам нужно учитывать, что сводная статистика выбрана относительно произвольно, и что выбор какого-то аналитика породил парадокс. Я также утверждаю, что вы смотрите на клетки, которые вы имеют.)


Вы утверждаете, что мы должны игнорировать итоговую строку. Почему это "ясно"?
Картошка

Это ясно, потому что обработка A лучше с большими или маленькими камнями, а B выходит только из-за неравных N. Кроме того, последняя строка - это толкование, а не Евангелие. Есть как минимум два способа вычислить эту линию. Вы можете рассчитать это таким образом, только если хотите что-то сказать о конкретном образце.
Джон

Извините, я не понимаю, почему в итоговой строке неверный отчет. Я думаю, что я скучаю по вашей центральной точке. Не могли бы вы объяснить?
картофель

1
Вы можете нормализовать, а затем усреднить, что дает «правильный» результат (А). Но это незаконно. Следующая цитата взята
Potato

2
«Перестановки Симпсона показывают, что существует множество способов разделения населения, которые согласуются с ассоциациями в общей популяции. Разделение по полу может указывать на то, что и мужчины, и женщины чувствуют себя хуже, когда получают новое лечение, в то время как разделение той же группы населения по возрасту указывалось, что пациенты в возрасте до пятидесяти и пациенты в возрасте от пятидесяти лет и старше чувствовали себя лучше с учетом нового лечения. Нормализация данных из разных способов разделения одной и той же популяции даст несовместимые выводы об ассоциациях, которые имеют место в общей популяции ».
Картошка

4

Одним из важных «отказов» является то, что если назначения лечения непропорциональны между подгруппами, необходимо учитывать подгруппы при анализе данных.

Второе важное «ограничение» заключается в том, что обсервационные исследования особенно склонны давать неправильные ответы из-за неизвестного присутствия парадокса Симпсона. Это потому, что мы не можем исправить тот факт, что лечение А, как правило, проводится в более сложных случаях, если мы не знаем, что это было.

В правильно рандомизированном исследовании мы можем либо (1) распределить лечение случайным образом, так что предоставление «несправедливого преимущества» одному лечению крайне маловероятно и будет автоматически учтено в анализе данных, или (2) если есть важная причина для этого распределите процедуры случайным образом, но непропорционально, основываясь на некоторой известной проблеме, а затем учтите эту проблему во время анализа.


+1, однако «автоматически позаботиться о» не совсем верно (по крайней мере, в ближайшей ситуации, о которой вы прежде всего заботитесь). Это верно в долгосрочной перспективе, но вы все еще можете иметь очень много ошибок типа I и типа II из-за ошибки выборки (то есть пациенты в 1 условии лечения имели тенденцию к более тяжелым заболеваниям только по случайности).
gung - Восстановить Монику

Но влияние ошибки выборки будет учтено, когда мы проанализируем таблицу сопряженности, вычислим и правильно интерпретируем значение p.
Эмиль Фридман
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.