Эндрю Гельман в одном из своих недавних постов в блоге говорит:
Я не думаю, что для парадокса Симпсона необходимы контрфакты или потенциальные результаты. Я говорю это потому, что можно установить парадокс Симпсона с переменными, которыми нельзя манипулировать, или для которых манипуляции не представляют непосредственного интереса.
Парадокс Симпсона является частью более общей проблемы, заключающейся в том, что коэффициенты регрессии изменяются, если вы добавляете больше предикторов, то переворот знака не является действительно необходимым.
Вот пример, который я использую в своем обучении, который иллюстрирует оба момента:
Я могу запустить регрессию, предсказывающую доход от пола и роста. Я считаю, что половой доход составляет 10000 долларов (то есть, если сравнивать мужчину и женщину одного роста, в среднем мужчина получит еще 10000 долларов ), а коэффициент роста равен 500 долларам (т.е. сравнивать двух мужчин или двух женщин разной высоты, в среднем высокий человек будет зарабатывать на 500 долларов больше на дюйм роста).
Как я могу интерпретировать эти слова? Я чувствую, что корень роста легко интерпретировать (легко представить сравнение двух людей одного пола с разной высотой), действительно, было бы как-то «неправильно» регрессировать на рост, не контролируя пол, как и большую часть необработанного Различие между невысокими и высокими людьми можно «объяснить» тем, что они различаются между мужчинами и женщинами. Но основа секса в приведенной выше модели кажется очень трудной для понимания: зачем сравнивать мужчину и женщину, например, ростом 66 дюймов? Это было бы сравнение невысокого мужчины с высокой женщиной. Все эти рассуждения кажутся неопределенными причинно-следственными связями, но я не думаю, что имеет смысл думать об этом, используя потенциальные результаты.
Я размышлял над этим (и даже прокомментировал сообщение) и думаю, что есть кое-что, что требует понимания с большей ясностью здесь.
До части по интерпретации пола это так хорошо. Но я не вижу, в чем проблема сравнения маленького мужчины и высокой женщины. Вот моя точка зрения: на самом деле это имеет еще больший смысл (учитывая предположение, что мужчины в среднем выше). Нельзя сравнивать «коротышку» и «коротышку» по одной и той же причине: разница в доходах в какой-то степени объясняется разницей в высоте. То же самое относится и к высоким мужчинам и высоким женщинам, и тем более к коротким женщинам и высоким мужчинам (о чем, так сказать, не может быть и речи). Таким образом, в основном влияние роста устраняется только в том случае, если сравниваются невысокие мужчины и высокие женщины (и это помогает интерпретировать коэффициент по полу). Разве это не звонит в колокольчик о похожих базовых концепциях популярных моделей соответствия?
Идея, лежащая в основе парадокса Симпсона, заключается в том, что эффект популяции может отличаться от эффекта (ов) подгруппы. Это в некотором смысле связано с его пунктом 2 и тем фактом, что он признает, что высота не должна контролироваться в одиночку (то, что мы говорим, опущено переменное смещение). Но я не мог связать это с полемикой по поводу коэффициента.
Может быть, вы сможете выразить это более четко? Или прокомментируете мое понимание?