Нетранзитивность корреляции: корреляция между полом и размером мозга и между размером мозга и IQ, но нет корреляции между полом и IQ


18

Я нашел следующее объяснение в блоге и хотел бы получить больше информации о нетранзитивности корреляции:

У нас есть следующие неоспоримые факты:

  • В среднем, разница в объеме мозга у мужчин и женщин
  • Существует корреляция между IQ и размером мозга; корреляция составляет 0,33 и, таким образом, соответствует 10% изменчивости IQ

Из этих предпосылок 1 и 2, по-видимому, логично следует, что у женщин в среднем IQ ниже, чем у мужчин. Но это заблуждение! В статистике корреляции не являются переходными. Доказательством является то, что вам просто нужно посмотреть на результаты тестов IQ, и они показывают, что IQ мужчин и женщин в среднем не отличаются.

Я хотел бы понять эту нетранзитивность корреляции немного глубже.

Если бы корреляция между IQ и размером мозга была 0,9 (что, как я знаю, не является (1)), будет ли вывод о том, что у женщин в среднем IQ ниже, чем у мужчин, все равно будет ошибкой?

Пожалуйста, я здесь не для того, чтобы говорить об IQ (и ограниченности теста), сексизме, стереотипе женщины, высокомерии и так далее (2). Я просто хочу понять логическое обоснование ошибки.


(1) я знаю, что это не так: у неандертальцев мозг был больше, чем у homo sapiens, но он не был умнее;

(2) Я женщина, и в целом, я не считаю себя или других женщин менее умными, чем мужчины, меня не волнует IQ-тест, потому что подсчет - это ценность людей, и она не основана на интеллектуальные способности.


Первоначальный источник на французском языке:

На ле феит неоспоримый суивант:

  • и вся разница в объёме головного и женского пола
  • или нет, корреляция между QI и объемным мозгом; Корреляция составляет 0,33 и соответствует 10%.

Решения 1 и 2, в которых представлена ​​логистика: все женщины и мужчины и женщины.

Mais c'est une erreur de raisonnement! В статистике, корреляции не переходят. Все это делается для того, чтобы избежать любых проблем, связанных с проведением тестов, проведенных в течение первого квартала, и нескольких месяцев, прошедших через несколько месяцев и прошедших через несколько лет.

введите описание изображения здесь


5
Я не понимаю, как эти утверждения имеют какое-либо отношение к корреляции вообще (и упоминание «транзитивности» кажется совершенно неуместным в этом контексте). Заключение, в конце концов, связано со средней разницей. Эта статистика (которая является первым моментом) в целом не зависит от корреляции (которая получается из вторых моментов). Даже когда корреляция является идеальной нельзя делать какие-либо выводы о разнице средних по второй переменной, основываясь на разнице средних по первой переменной. ±1
whuber

5
Можно показать (Лэнгфорд, Швертман и Оуэнс (2001)), что положительная корреляция транзитивна, если сумма квадратов корреляций больше 1: ρИксY2+ρYИкс2>1ρИксZ>0
CloseToC

2
@whuber: Да, но это вопрос не о связи между средствами X и Y (размер мозга и IQ), это вопрос о связи между средствами Y в двух разных кластерах ... Я думаю, это очевидно что если корреляция между размером мозга и IQ является идеальной (то есть IQ является линейной функцией размера мозга), и если средний размер мозга отличается у мужчин и женщин, то средний IQ отличается у мужчин и женщин.
говорит амеба: восстанови Монику

2
@ Amoeba Спасибо за эту интерпретацию. Цитата начинает обретать смысл (наконец-то!). Но называть это «транзитивностью корреляции» настолько неясно, чтобы быть откровенно вводящим в заблуждение. (Фраза есть на оригинальном французском языке, поэтому мы даже не можем винить перевод.)
whuber

3
@amoeba Это правдоподобно. Но я думаю, вам нужно немного растянуть вещи, чтобы приехать туда! Цитата не характеризует взаимосвязь между полом и размером мозга как «корреляцию» - только как разницу в средних значениях между двумя группами (что , кстати, не является стандартной мерой корреляции). Но я предполагаю, что мы должны понимать «корреляцию» в широком смысле как «отсутствие зависимости» или что-то в этом роде.
whuber

Ответы:


16

Да, это все равно будет ошибкой.

Вот очень простая фигура, показывающая четыре разные ситуации. В каждом случае красные точки представляют женщин, синие точки представляют мужчин, горизонтальная ось представляет размер мозга, а вертикальная ось представляет IQ. Я сгенерировал все четыре набора данных так, чтобы:

  • всегда есть одинаковая разница в среднем размере мозга между мужчинами ( ) и женщинами ( 28 - произвольные единицы). Это средние показатели популяции, но эта разница достаточно велика, чтобы быть статистически значимой при любом разумном размере выборки;2228

  • всегда есть нулевая разница в среднем IQ между мужчинами и женщинами (обе ), а также нулевая корреляция между полом и IQ;100

  • сила корреляции между размером мозга и IQ варьируется, как показано на рисунке.

корреляции

В верхнем левом графике внутриполовая корреляция (рассчитывается отдельно для мужчин и отдельно для женщин, затем усредняется) составляет , как в вашей цитате. В верхнем правом подпункте общая корреляция (по мужчинам и женщинам вместе) составляет 0,3 . Обратите внимание, что в вашей цитате не указано число 0,33 . В нижнем левом графике корреляция между полами равна 0,9 , как в вашем гипотетическом примере; в нижнем правом подпункте общая корреляция составляет 0,9 .0,30,30,330.90.9

Таким образом, вы можете иметь любое значение корреляции, и не имеет значения, рассчитывается ли оно в целом или внутри группы. Каким бы ни был коэффициент корреляции, вполне возможно, что существует нулевая корреляция между полом и IQ и нулевая гендерная разница в среднем IQ.


Изучение нетранзитивности

Давайте исследуем все возможности, следуя подходу, предложенному @kjetil. Предположим , у вас есть три переменные и (без ограничения общности) Предположим , что соотношение между х 1 и х 2 является > 0 и корреляции между х 2 и х 3 является б > 0 . Вопрос в том, каково минимально возможное положительное значение корреляции λ между x 1 и x 3.Икс1,Икс2,Икс3Икс1Икс2a>0Икс2Икс3б>0λИкс1Икс3? Иногда оно должно быть положительным или всегда может быть нулевым?

Матрица корреляции имеет вид и должна иметь неотрицательный определитель, т. Е. D e t R = - λ 2 + 2 a b λ - ( a 2 + b 2 - 1 ) 0 , что означает, что λ должен лежать между a b ±

рзнак равно(1aλa1бλб1)
dеTрзнак равно-λ2+2aбλ-(a2+б2-1)0,
λЕсли оба корня положительны, то минимально возможное значениеλравно меньшему корню (иλдолжен быть положительным!). Если ноль находится между этими двумя корнями, тоλможет быть нулем.
aб±(1-a2)(1-б2),
λλλ

Мы можем решить это численно и построить минимально возможное положительное значение для различных a и b :λaб

Изучение нетранзитивности

Неформально можно сказать, что корреляции были бы транзитивными, если бы при и b > 0 можно было сделать вывод, что λ > 0 . Мы видим , что для большинства значений через и Ь , λ может быть равно нулю, что означает , что корреляции непереходный. Однако для некоторых достаточно высоких значений a и b корреляция λ должна быть положительной , то есть, в конце концов, существует «некоторая степень транзитивности», но ограниченная только очень высокими корреляциями. Обратите внимание, что оба корреляции a и ba>0б>0λ>0aбλaбλ aб должен быть высоким.

Мы можем выработать точное условие для этой «транзитивности»: как упоминалось выше, меньший корень должен быть положительным, то есть , что эквивалентноa2+b2>1. Это уравнение круга! И действительно, если вы посмотрите на рисунок выше, вы заметите, что синяя область образует четверть круга.aб-(1-a2)(1-б2)>0a2+б2>1

В вашем конкретном примере корреляция между полом и размером мозга довольно умеренная (возможно, ), а корреляция между размером мозга и IQ составляет b = 0,33 , что находится в пределах синей области ( a 2 + b 2 < 1 ), означая, что λ может быть положительным, отрицательным или нулевым.aзнак равно0,5бзнак равно0,33a2+б2<1λ


Соответствующая фигура из оригинального исследования

Вы хотели избежать обсуждения пола и умственных способностей, но я не могу не отметить, что, взглянув на полную цифру из оригинальной статьи ( Gur et al. 1999 ), можно увидеть, что, хотя в словесной оценке IQ нет гендерных различий, существует очевидная и значительная разница в пространственном балле IQ! Сравните подзаговоры D и F.

Гур и соавт.


2
Я люблю эти сюжеты, которые вы создали.
Таких

1
@AleksandrBlekh: честно говоря, я не уверен. "Тепловая карта"? «Контурный сюжет», но цветной и без контуров?
говорит амеба, восстанови Монику

2
|λ|λ

1
ИксYYZИксZaб0λ0

1
Спасибо амебе за этот длинный и подробный ответ (и даже добавленный очень, очень приветствуемый кстати)! Это делает вещи кристально чистыми! Эта концепция так сложна для моего статистически необученного мозга, и вы пролили свет на проблему! Большое спасибо за то время, которое вы потратили, чтобы опубликовать свой ответ!
MagTun

8

Икс1знак равноIQ,Икс2знак равноПолИкс3

кор(Икс1,Икс2)знак равноλ,кор(Икс1,Икс3)знак равнокор(Икс2,Икс3)знак равноρзнак равно0.9
λ
рзнак равно(1λρλ1ρρρ1)
ρ
йерзнак равно1(1-ρ2)-λ(λ-ρ2)+ρ(λρ-ρ)знак равно1-λ2-2ρ2+2λρ20,
ρ2λ+12ρзнак равно0.9λ0,62

Обновить:

В ответ на комментарии я несколько обновил ответ выше. Теперь, что мы можем сделать из этого? Согласно приведенным выше расчетам, корреляция 0,9 между IQ и объемом мозга (намного больше, чем эмпирический). Тогда корреляция между полом и IQ должна быть не менее 0,62. Что это обозначает? В комментариях некоторые говорят, что это ничего не значит о средних различиях между полами. Но это не может быть правдой! Да, для нормально распределенных переменных мы можем назначить корреляцию и средства без отношений. Но пол является переменным нулевыми один, для таких переменного есть это отношение между корреляцией и средними различиями. Конкретно, IQ (скажем) нормально распределен, в то время как пол дискретен, ноль один. Предположим, что его среднее значениепзнак равно0,5(реально). Тогда (скажем) положительная корреляция означает, что пол имеет тенденцию быть «выше» (то есть один), если IQ выше. Этого не может быть, если не будет существенной разницы! Давайте сделаем алгебру: во-первых, чтобы упростить алгебру, давайте центрируем IQ на нуле вместо обычных 100. Это не изменит никаких корреляций или средних различий. Пусть и . С это означает поскольку . У нас есть а - это Бернулли с .μ1знак равноЕ(Икс1|Икс2знак равно1)μ0знак равноЕ(Икс1|Икс2знак равно0)μзнак равноЕ(Икс1)μзнак равно0знак равноμ1+μ0μ0знак равно-μ1Икс1~N(μзнак равно0,σ2)Икс2пзнак равно1/2

корр(Икс1,Икс2)знак равноЕ(Икс1-μ)Е(Икс2-п)σ12знак равноΔ2σ
где . При обычном значении (для IQ) это дает, что корреляция равна . Таким образом, корреляция 0,62 означает разницу IQ 12,4. Так что плакаты , претендующие корреляции содержат неΔзнак равноμ1-μ0знак равно2μ1σзнак равно10Δ/20Информация о IQ означает, что разница неверна! Это было бы верно, если бы пол был непрерывной переменной, чего, очевидно, нет. Обратите внимание, что этот факт связан с тем фактом, что для биномиального распределения дисперсия является функцией среднего значения (как и должно быть, поскольку существует только один свободный параметр для изменения). То, что мы сделали выше, действительно распространяет это на ковариацию / корреляцию.

Но, согласно ОП, истинное значение . Тогда неравенство становится таким, что , поэтому является возможным значением. Таким образом, в истинном случае нельзя сделать выводы о средних различиях в IQ из корреляции между IQ и объемом мозга.ρзнак равно0,33λ-0,7822λзнак равно0


1
И как помогает нам вывести (хотя и ошибочно) ? Я что-то упустил здесь? E ( x 1 ) E ( x 2 )сор(Икс1,Икс2)0,62Е(Икс1)Е(Икс2)
Хашаа

5
+1 - Но я нахожу концепцию корреляции между IQ мужчин и женщин несколько запутывающей, так как вы никогда не сможете рассчитать такое значение.
Энди У,

1
Какова корреляция между IQ мужчин и женщин?
говорит амеба: восстановите Монику

да, верно @amoeba! Возможно, я не использовал правильные слова, чтобы выразить свое замешательство (это трудно, потому что я не привык к статистике), но переменная - это действительно пол, IQ и размер мозга.
MagTun

7

Это ситуация, в которой мне нравится использовать диаграммы путей для иллюстрации прямых и косвенных эффектов, а также то, как эти два фактора влияют на общие корреляции.

В соответствии с исходным описанием у нас есть корреляционная матрица ниже. Размер мозга имеет около 0,3 корреляции с IQ, женщины и IQ имеют 0 корреляции друг с другом. Я заполняю отрицательную корреляцию между женщиной и размером мозга, чтобы она составляла -0,3 (если бы мне нужно было предположить, что она намного меньше, но это будет служить для иллюстрации).

       Brain  Female  IQ
 Brain   1
Female  -0.3    1
    IQ   0.3    0      1

Если мы подходим к регрессионной модели, где IQ является функцией размера мозга и является женщиной, мы можем проиллюстрировать это на диаграмме пути. Я заполнил коэффициенты частичной регрессии на стрелках, и узел B обозначает размер мозга, а узел F обозначает женщину.

введите описание изображения здесь

Теперь, как это безумие - при контроле размера мозга, учитывая эти корреляции, женщины имеют положительные отношения с IQ. Почему, когда предельная корреляция равна нулю? Согласно правилам с линейными диаграммами путей ( Wright, 1934 ), мы можем разложить предельную корреляцию как функцию прямого эффекта при контроле размера мозга и косвенного эффекта:

Общее количествоF,IQ=DirectF,IQ+IndirectF,B,IQ

TotalF,IQ=Cor(F,IQ)

IndirectF,B,IQ=Cor(F,B)Cor(B,IQ|F)0.099=0.30.33

Поскольку суммарный эффект равен нулю, мы знаем, что прямой эффект должен быть просто точным противоположным знаком и величиной косвенного эффекта , следовательно, прямой эффект равен 0,099 в этом примере. Теперь, здесь мы имеем ситуацию, когда при оценке ожидаемого IQ женщин мы получаем два разных ответа, хотя, вероятно, не то, что вы изначально ожидали, задавая вопрос. При простой оценке предельного ожидаемого IQ женщин и мужчин разница равна нулю, как вы ее определили (имея нулевую корреляцию). При оценке ожидаемой разницы в зависимости от размера мозга у женщин IQ выше, чем у мужчин.

Вы можете вставить в этот пример либо большую корреляцию между размером мозга и IQ (или меньшую корреляцию между женщиной и размером мозга), учитывая ограничения, которые kjetil показывает в своем ответе. Увеличение первого делает неравенство между условным IQ женщин и мужчин еще большим в пользу женщин, уменьшение второго делает различия меньше.


Если вы посмотрите на представленную картину, она показывает положительную (и более сильную, чем у мужчин) корреляцию объема мозга женщины с IQ.
Алекос Пападопулос

1
@ Andy W Мне стыдно задавать этот глупый вопрос, но какое программное обеспечение вы использовали для рисования графа узлов?
Mugen

1
Это была быстрая работа в inkscape @mugen. Я считаю, что те, которые я делаю, используя латекс и тикз, занимают больше времени, и это приятнее.
Энди У

+1 Не могли бы вы указать мне теорию, стоящую за вашей второй формулой?
Александр Блех

2
@AleksandrBlekh - газета Райта, которую я цитирую, является оригинальным источником. Иудея Перл приводит более подробные комментарии в своей книге « Причинность» , хотя есть и более простые методы. (Для линейных моделей разложения часто получают краткий анализ в книгах по моделированию структурных уравнений.)
Энди В.

3

vq12

(1)E(v1)>E(v2)=βE(v1),0<β<1,ρ(v1,q1)>0,ρ(v2,q2)>0

Обратите внимание, что хотя в цитируемом тексте говорится о «корреляции между объемом мозга и IQ» в целом, предоставленное изображение делает различие с двумя линиями тренда (т.е. оно показывает корреляцию для двух подгрупп отдельно). Поэтому мы рассмотрим их отдельно (это правильный путь).

потом

ρ(v1,q1)>0Cov(v1,q1)>0E(v1q1)>E(v1)E(q1)

(2)E(v1q1)E(q1)>E(v1)

и

ρ(v2,q2)>0Cov(v2,q2)>0E(v2q2)>E(v2)E(q2)

(3)E(v2q2)βE(q2)>E(v1)

E(q1)>E(q2)

(4)Е(Q1)знак равноЕ(Q2)знак равноQ¯

Тогда должно быть так, что

(5)(2),(4)Е(v1Q1)Q¯>Е(v1)

и это

(6)(3),(4)Е(v2Q2)βQ¯>Е(v1)

(5)(6)
(1)

(1)Е(Q1)Е(Q2)(1)


2
Несмотря на все расчеты, показанные здесь, я все еще не вижу, как корреляция вообще что-либо раскрывает (или накладывает какие-либо ограничения) относительно отношений между средними значениями.
whuber

@whuber Весь ответ показывает, что это не так. Последние предложения говорят именно это. Давайте добавим еще один к этому эффекту.
Алекос Пападопулос

Но это абсолютно просто: не нужно целой страницы уравнений, чтобы показать это! Достаточно заметить, что коэффициенты корреляции не зависят от местоположения, QED . Я неправильно понял вопрос?
whuber

1
@whuber Со всем должным уважением и без обид, никому не предназначенных, но я боюсь, что вы «неверно истолковываете» уровень знаний ОП. В противном случае вопрос не был бы опубликован.
Алекос Пападопулос

4
Тогда я бы посоветовал вам подумать о том, подходит ли какой-либо ответ, в значительной степени основанный на математических уравнениях, для обращения к постерам, которые, как представляется, требуют элементарного изложения основных понятий. Это тонкий вопрос, потому что иногда это совершенно правильный подход. Кроме того, степень, в которой человек использует математику - и то, как он излагает математические идеи - может быть вопросом вкуса. Но ИМХО этот вид ответа эффективен только тогда, когда математика ясна и последовательно ориентирована на основную идею.
whuber
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.