Понимание парадокса Симпсона: пример Эндрю Гельмана с регрессом доходов по полу и росту


22

Эндрю Гельман в одном из своих недавних постов в блоге говорит:

  1. Я не думаю, что для парадокса Симпсона необходимы контрфакты или потенциальные результаты. Я говорю это потому, что можно установить парадокс Симпсона с переменными, которыми нельзя манипулировать, или для которых манипуляции не представляют непосредственного интереса.

  2. Парадокс Симпсона является частью более общей проблемы, заключающейся в том, что коэффициенты регрессии изменяются, если вы добавляете больше предикторов, то переворот знака не является действительно необходимым.

Вот пример, который я использую в своем обучении, который иллюстрирует оба момента:

Я могу запустить регрессию, предсказывающую доход от пола и роста. Я считаю, что половой доход составляет 10000 долларов (то есть, если сравнивать мужчину и женщину одного роста, в среднем мужчина получит еще 10000 долларов ), а коэффициент роста равен 500 долларам (т.е. сравнивать двух мужчин или двух женщин разной высоты, в среднем высокий человек будет зарабатывать на 500 долларов больше на дюйм роста).

Как я могу интерпретировать эти слова? Я чувствую, что корень роста легко интерпретировать (легко представить сравнение двух людей одного пола с разной высотой), действительно, было бы как-то «неправильно» регрессировать на рост, не контролируя пол, как и большую часть необработанного Различие между невысокими и высокими людьми можно «объяснить» тем, что они различаются между мужчинами и женщинами. Но основа секса в приведенной выше модели кажется очень трудной для понимания: зачем сравнивать мужчину и женщину, например, ростом 66 дюймов? Это было бы сравнение невысокого мужчины с высокой женщиной. Все эти рассуждения кажутся неопределенными причинно-следственными связями, но я не думаю, что имеет смысл думать об этом, используя потенциальные результаты.

Я размышлял над этим (и даже прокомментировал сообщение) и думаю, что есть кое-что, что требует понимания с большей ясностью здесь.

До части по интерпретации пола это так хорошо. Но я не вижу, в чем проблема сравнения маленького мужчины и высокой женщины. Вот моя точка зрения: на самом деле это имеет еще больший смысл (учитывая предположение, что мужчины в среднем выше). Нельзя сравнивать «коротышку» и «коротышку» по одной и той же причине: разница в доходах в какой-то степени объясняется разницей в высоте. То же самое относится и к высоким мужчинам и высоким женщинам, и тем более к коротким женщинам и высоким мужчинам (о чем, так сказать, не может быть и речи). Таким образом, в основном влияние роста устраняется только в том случае, если сравниваются невысокие мужчины и высокие женщины (и это помогает интерпретировать коэффициент по полу). Разве это не звонит в колокольчик о похожих базовых концепциях популярных моделей соответствия?

Идея, лежащая в основе парадокса Симпсона, заключается в том, что эффект популяции может отличаться от эффекта (ов) подгруппы. Это в некотором смысле связано с его пунктом 2 и тем фактом, что он признает, что высота не должна контролироваться в одиночку (то, что мы говорим, опущено переменное смещение). Но я не мог связать это с полемикой по поводу коэффициента.

Может быть, вы сможете выразить это более четко? Или прокомментируете мое понимание?


Перекрестная проверка рассматривает случайные подмножества населения, пытаясь получить минимальное переопределение и наилучшее обобщение.
EngrStudent - Восстановить Монику

1
Если я правильно понимаю вашу озабоченность, я думаю, что вы могли бы также извлечь выгоду из рассмотрения парадокса Господа. @article {lord67, author = {Lord, FM}, title = {Парадокс в интерпретации групповых сравнений}, journal = {Психологический бюллетень}, год = {1967}, том = {68}, страницы = {304- -305}, ключевые слова = {изменить оценки}} @article {лорд69, автор = {Господь, Ф.М.}, название = {Статистические корректировки при сравнении ранее существовавших групп}, журнал = {Психологический бюллетень}, год = {1969}, том = {72}, страниц = {336--337}, ключевые слова = {изменить оценки}}
mdewey

1
Иудея Перл недавно сделала еще один пост о парадоксе Симпсона . Я почти уверен, что он не согласен с презентацией Гельмана. На этот раз второй пункт не является «парадоксом». Изменение оценок как следствие того, на что вы опираетесь, является математическим фактом. Что делает его потенциально парадоксальным, так это то, что вы делаете причинную интерпретацию обеих оценок. Во-вторых, почему это ограничение только для манипулируемых причин?
NRH

Ответы:


9

Я не совсем уверен в вашем вопросе, но могу отметить его утверждения и вашу путаницу в примере модели.

Эндрю не совсем понятно , если научный интерес лежит в высоте регулируется ассоциации секс-доход или секс регулировать ассоциацию высоты дохода. В рамках причинно-следственной модели секс вызывает рост, но рост не вызывает секс. Поэтому, если мы хотим воздействия секса, корректировка по росту привела бы к смещению медиатора (возможно, к смещению коллайдера, так как богатые люди выше!). Я нахожу это запутанным и забавным, когда я вижу прикладные исследования, которые интерпретируют другие«ковариаты» (переменные и точные переменные), которые включены в модель. Они бессмысленны, но просто обеспечивают адекватное расслоение, чтобы сделать необходимое сравнение. Корректировка по росту, если вы заинтересованы в выводе о половых различиях в доходах, это неправильная вещь.

Я согласен с тем, что для объяснения парадокса Симпсона не требуется подделок. Они могут быть просто чертой, присущей данным. Я думаю, что и грубые, и скорректированные ОР в некотором смысле верны, но не являются причинно-следственными. Конечно, это более проблематично, когда целью является причинно-следственный анализ, а перерегулировка выявляет проблемы отсутствия разборчивости (что приводит к увеличению OR) и недостаточного размера выборки.

Как напоминание для читателей: парадокс Симпсона - это очень специфическое явление, которое относится к случаю, когда ассоциация меняет направление после контроля за смешанной переменной. Прием данных Беркли был мотивирующим примером. Там грубые ОР показали, что женщины реже принимаются в Беркли. Тем не менее, после разделения по департаментам , ОР показали, что женщины с большей вероятностью будут приняты в каждом отдельном департаменте . Просто они чаще обращались в трудные отделы, которые отвергли множество людей.

Теперь, в теории причинно-следственных связей, мы были бы озадачены, полагая, что отдел, который применяется к причинам пола, Пол свойственный право? Ну да и нет. Миттенен выступает за «учебный подход» к решению таких проблем: кто такой народ? Это не все подходящие студенты, это те, кто специально обращаются в Беркли. Более конкурентоспособные департаменты привлекли женщин, чтобы подать заявление в Беркли, если они не подали бы в противном случае. Расширение: женщина, которая очень умна, хочет получить лучшую, скажем, инженерную программу. Если бы у Беркли не было отличной инженерной программы, она бы в любом случае не обращалась в Беркли, она бы обратилась в MIT или CalPoly. Таким образом, в этом свете, «подающий заявление» население, отдел вызывает пол и является спутником. (предостережение: я студент первого поколения колледжа, поэтому не знаю много о том, какие программы известны чем).

Итак, как мы суммируем эти данные? Это правда, что Беркли были более склонны принять мужчину, который подал заявку, чем женщина. И это правда, что департаменты Беркли чаще принимали женщин, чем мужчин. Сырые и стратифицированные ОР являются разумными мерами, даже если они не являются причинно-следственными. Это подчеркивает, насколько важно быть точным с нашей формулировкой статистиков (скромный автор не может себе позволить быть точным).

Смешение - это явление, отличное от неразрывности, еще одна форма пропущенного переменного смещения, но известно, что она оказывает более умеренное влияние на оценки. В отличие от логистической регрессии, отсутствие коллапсибилтирования не вызывает смещения в линейной регрессии, и рассмотрение вопроса о непрерывности в примере Гельмана должно было быть описано более тщательно.

Интерпретация Эндрю полового коэффициента в его модели дохода с поправкой на пол / рост раскрывает природу допущений модели: допущение линейности. Действительно, в линейной модели такие сравнения между мужчинами и женщинами возможны, потому что для конкретной женщины мы можем предсказатькакой мужчина такого же роста мог бы заработать, даже если его не наблюдали. Это также имеет место, если учесть изменение эффекта, так что наклон тенденции у женщин отличается от наклона мужчин. С другой стороны, я не думаю, что это так безумно - думать о мужчинах и женщинах одинакового роста: 66 дюймов - это высокая женщина и низкий мужчина. Мне кажется, это мягкий прогноз, а не грубая экстраполяция. Кроме того, поскольку модельные допущения могут быть четко сформулированы, это помогает читателям понять, что стратифицированная по полу связь между ростом и доходом несет информацию, которая заимствована или усреднена междуобразцы мужчин и женщин. Если бы такая ассоциация была объектом логического вывода, серьезный статист, очевидно, рассмотрел бы возможность модификации эффекта.


2
Отличная дискуссия. Как статистика, меня бесконечно раздражает, когда люди говорят о результатах исследования, но не уверены, говорят ли они о предельных или условных эффектах.
Клифф AB

1

«Зачем сравнивать мужчину и женщину, например, ростом 66 дюймов? Это было бы сравнение невысокого мужчины с высокой женщиной »

Модель предполагает, что доход зависит от пола и роста. Однако то, как рост приносит более высокий доход, может быть разным для мужчин и женщин. Женщины могут считаться высокими «достаточно» на высоте, для которой мужчина все еще может считаться невысоким.

Упрощение модели следующим способом может быть полезным.

Предположим, что вы хотите снизить вероятность того, что вы будете работать продавцом в крупных магазинах одежды, и рассмотрите следующую стратегию идентификации.

Вы замечаете, что работодатели с большей вероятностью нанимают работников, которые соответствуют определенному минимальному росту, где «минимум» относится к полу.

Вместо того, чтобы измерять рост в сантиметрах, давайте предположим, что существуют два пороговых значения, определяющих, при каком росте соответственно мужчина и женщина являются «высокими»:> = 180 см для мужчин и> = 170 см для женщин.

Предполагая, что в действительности существуют пороговые значения (т. Е. Работодатели имеют заметную разницу между женщинами и ростом 169 см или 171 см), и что они правильные, вы можете построить манекен, определяющий высоких / коротких мужчин и женщин. Мужчины и женщины разного роста могут по-прежнему попадать в одну и ту же категорию вашего манекена, и в то же время ваши показатели соответствуют реальной динамике конкретного рынка труда.


-1

Вы бы сказали (более простыми словами), что типичная гендерная борьба, в которой говорится, что у мужчин больше шансов, чем у женщин, так как их доход на p% выше, будет парадоксально предвзятой?

Может быть, это точка. Мы склонны видеть вещи, как они выглядят, а не анализировать основные последствия.

Чтобы пойти дальше парадокса Симпсона, мы должны были бы ответить на вопрос: «Сколько денег зарабатывает женщина, выполняющая такую ​​же непредвзятую работу по сравнению с мужчиной?» тогда кто-то мог бы сказать, что они должны быть беременными и воспитывать детей больше, чем их коллеги, что является правдой, но важная проблема заключается в том, что это как бы вздыхает, просто говоря: «женщины сами по себе являются женщинами, у них меньше возможностей» и Анализ с помощью условной статистики привел бы нас к пониманию того, что, по сути, существуют равные возможности, и они являются другими факторами, не связанными с полом, что делает статистику похожей на дискриминацию, связанную с проблемами секса.


Может быть полезно понять, что такой анализ не обязательно должен быть причинным или объяснительным, но описывать существующее явление.
AdamO
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.