Когда корреляция может быть полезной без причинно-следственной связи?


27

Любимая поговорка многих статистиков гласит: «Корреляция не подразумевает причинно-следственную связь». Это, конечно, правда, но одна вещь, которая, похоже, здесь подразумевается, это то, что корреляция имеет мало или вообще не имеет значения. Это правда? Разве бесполезно знать, что две переменные коррелируют?

Я не могу себе представить, что это так. Я не очень знаком с прогностическим анализом, но кажется, что если он Xявляется предиктором Y, он будет полезен для прогнозирования будущих значений на Yоснове X, независимо от причинно-следственной связи.

Я неправильно вижу значение в корреляции? И если нет, то в каких ситуациях статистик или специалист по данным может использовать корреляцию без причинно-следственной связи?


5
На мой взгляд, фраза «причинно-следственная связь не подразумевает корреляцию» часто неправильно используется для обозначения того, что статистике не всегда следует доверять (правда, но не всегда из-за отсутствия причинно-следственной связи). Я так расстраиваюсь, когда вижу, как люди отбрасывают эту фразу в связи с тем, что прогнозный анализ неверен. Например, facebook.com/notes/mike-develin/debunking-princeton/… является отличным примером как ужасного анализа, так и ужасного разоблачения ужасного анализа.
Клифф AB

10
Например, предположим, вы обнаружите, что жизнь в определенном городе связана с ранней смертью. Вы не можете прийти к выводу, что жизнь в этом городе приводит к ранней смерти, и что вынудив людей покинуть этот город, они могут жить дольше. (Возможно, город по какой-то причине привлекателен для больных людей). Но если вы актуарий, вы будете совершенно оправданы, если захотите взимать более высокие страховые взносы с жителей этого города - знание об этой взаимосвязи может быть очень полезным для ты.
Нейт Элдридж

2
На юге Англии погибает больше людей, @NateEldredge. Это потому, что люди там выходят на пенсию.
TRIG

1
Отсутствие корреляции имеет больший смысл, возможно.
Рафаэль

Обязательная ссылка на xkcd: xkcd.com/552
vsz

Ответы:


32

Корреляция (или любая другая мера связи) полезна для прогнозирования независимо от причинно-следственной связи. Предположим, что вы измеряете четкую, устойчивую связь между двумя переменными. Это означает, что знание уровня одной переменной также предоставляет вам некоторую информацию о другой интересующей переменной, которую вы можете использовать, чтобы помочь предсказать одну переменную как функцию от другой и, что наиболее важно, предпринять некоторое действие на основе этого прогноза , Принятие мер подразумевает изменение одной или нескольких переменных, например, когда вы делаете автоматическую рекомендацию или используете какое-либо медицинское вмешательство. Конечно, вы могли бы делать более точные прогнозы и действовать более эффективно, если бы вы лучше понимали прямые или косвенные отношения между двумя переменными. Это понимание может включать другие переменные, в том числе пространственные и временные.


4
Корреляции не всегда полезны для прогнозирования. В случаях обратной причинно-следственной связи существуют важные временные аспекты, которые не всегда можно контролировать. Мы все время сталкиваемся с болезнью Альцгеймера. Мы постоянно бьем головой об стену, пытаясь различить: являются ли биомаркеры, которые мы обнаруживаем в АД, пораженные мозги, вызывающие заболевание или вызываемые заболеванием?
AdamO

1
@ AdamO Я думаю, что мой ответ охватывает эту основу в последнем или двух предложениях, поэтому я не согласен с вами.
Дерзкое Равновесие

1
Проблема с причинностью на самом деле возникает, только если вы пытаетесь интерпретировать свою прогностическую модель. (Конечно, это то, что нас часто интересует в науке). Когда мы видим, что биомаркер Aявляется очень хорошим предиктором, очень заманчиво утверждать, что это также является причиной заболевания - и, как упоминалось в комментариях, очень легко прийти к неправильным выводам. Если мы хотим только делать прогнозы, например, сообщать, есть ли у пациента заболевание или нет, с корреляциями проблем нет.
чел

1
Это неправда, и вот лишь один пример, почему. Если действие в соответствии с вашими предсказаниями предполагает изменение переменной и ожидание того, что цель также изменится, но на самом деле прямой связи нет или причинно-следственная связь идет другим путем, то вы предпримете неправильное действие. И прежде чем вы скажете: «Но в этом примере вы интерпретируете модель, - говорю я, - в каком сценарии вы НЕ сделаете вывод даже из модели, предназначенной для прогнозирования?» Ответ: когда вы не очень доверяете причинным связям, которые подразумевает ваша модель.
Дерзкое Равновесие

1
@BrashEquilibrium: есть много способов воздействовать на предсказание, которые не включают изменение переменных, используемых для получения предсказания любым способом. Хотите знать, должен ли ваш магазин запастись шерстяными варежками? Знание того, сколько мороженого вы продавали в последнее время, может (конечно, при гипотетическом отсутствии более прямых источников данных) стать хорошим предиктором.
Ильмари Каронен,

17

Здесь уже есть много хороших моментов. Позвольте мне распаковать ваше утверждение о том, что «кажется, что если Xэто предиктор Y, это будет полезно для прогнозирования будущих значений на Yоснове X, независимо от причинности», немного. Вы правы: если все, что вы хотите - это иметь возможность предсказать неизвестное Yзначение из известного Xзначения и известного стабильного отношения, причинный статус этого отношения не имеет значения. Считают, что:

  • Вы можете предсказать эффект от причины. Это интуитивно понятно и не вызывает сомнений.
  • Вы также можете предсказать причину из знания эффекта. Некоторые, но очень немногие люди, заболевшие раком легких, никогда не курили. В результате, если вы знаете, что у кого-то есть рак легких, вы можете с достаточной уверенностью предсказать, что он является курильщиком, несмотря на тот факт, что курение является причиной и рак является следствием. Если трава во дворе влажная, а разбрызгиватель не работает, вы можете предсказать, что пошел дождь, даже если причиной является дождь, а влажная трава - просто следствие. И т.п.
  • Вы также можете предсказать неизвестный эффект от известного эффекта той же причины. Например, если Билли и Бобби - идентичные близнецы, и я никогда не встречал Билли, но я знаю, что у Бобби 5 '10' (178 см), я могу предсказать, что Билли тоже с хорошей уверенностью 178 см, несмотря на то, что ни рост Билли не вызывает рост Бобби, ни рост Бобби не вызывает рост Билли.

7
Просто чтобы дать названия вашим категориям: ваши три вида предсказания называются (по порядку) дедукция , похищение и индукция .
Нил Дж

12

Они не обманывают важность корреляции. Просто тенденция состоит в том, чтобы интерпретировать корреляцию как причинно-следственную связь.

Возьмите грудное вскармливание как прекрасный пример. Матери почти всегда интерпретируют результаты (наблюдательных исследований) о грудном вскармливании как предположение о том, должны ли они на самом деле кормить грудью. Это правда, что в среднем дети, находящиеся на грудном вскармливании, имеют тенденцию быть более здоровыми по возрасту, даже после учета продольного материнского и отцовского возраста, социально-экономического статуса и т. Д. Это не означает, что только грудное вскармливание является причиной разницы, хотя это может частично играют роль в раннем развитии регуляции аппетита. Отношения очень сложны, и можно легко предположить целый ряд факторов, которые могут лежать в основе наблюдаемых различий.

Множество исследований ищут ассоциации, чтобы гарантировать более глубокое понимание того, что происходит. Корреляция не бесполезна, она всего лишь на несколько шагов ниже причинно-следственной связи, и необходимо помнить о том, как сообщать о результатах, чтобы предотвратить неверную интерпретацию со стороны неопытных.


9

Вы правы, что корреляция полезна. Причина того, что причинно-следственные модели лучше, чем ассоциативные модели, заключается в том, что, как говорит Перл, они являются оракулами для вмешательств. Другими словами, они позволяют гипотетически рассуждать. Каузальная модель отвечает на вопрос: «Если бы я заставил Х случиться, что случилось бы с Y?»

Но вам не всегда нужно гипотетически рассуждать. Если ваша модель только будет использоваться , чтобы ответить на вопросы типа «если я наблюдаю X, что я знаю о Y?», Тогда ассоциативная модель все что вам нужно.


3
Oracles For Interventions было бы хорошим названием для группы.
Мальволио

@Malvolio: смеется, это незабываемый лаконичный способ описания причинных моделей. Мне очень нравится эта фраза.
Нил Дж

4

Вы правы в том, что корреляция полезна для прогнозирования. Это также полезно для лучшего понимания изучаемой системы.

Один случай, когда необходимо знание о причинно-следственном механизме, - это если целевым распределением манипулировали (например, некоторые переменные были «вынуждены» принимать определенные значения). Модель, основанная только на корреляциях, будет работать плохо, в то время как модель, которая использует причинную информацию, должна работать намного лучше.


2

Корреляция является полезным инструментом, если у вас есть базовая модель, объясняющая причинность.

Например, если вы знаете, что применение силы к объекту влияет на его движение, вы можете измерить соотношение между силой и скоростью и силой и ускорением. Более сильная корреляция (с ускорением) сама по себе будет объяснительной.

В обсервационных исследованиях корреляция может выявить некоторые общие закономерности (как заявлено, грудное вскармливание и позднее здоровье), которые могут дать основание для дальнейшего научного исследования через надлежащий экспериментальный план, который может подтвердить или отклонить причинно-следственную связь (например, возможно, вместо грудного вскармливания, являющегося причиной, по которой оно может быть). следствие для определенных культурных рамок).

Таким образом, корреляция может быть полезной, но она редко может быть убедительной.


2

Как вы заявили, одна корреляция имеет много полезного, в основном прогнозирования.

AВAВ

Например, все эти исследования, показывающие, что интенсивное использование кофе в пожилых людей коррелирует с здоровее сердечно-сосудистой системы, на мой взгляд, несомненная мотивировано людей, желающих оправдать свои тяжелые привычки кофе. Однако то, что употребление кофе связано только с более здоровыми сердцами, а не с причинно-следственной связью, ничего не дает, чтобы ответить на наш реальный интересующий нас вопрос: станем ли мы здоровее, если будем пить больше кофе или урезать? Может быть очень неприятно находить очень интересные результаты (Кофе связан с более здоровыми сердцами!), Но не может использовать эту информацию для принятия решений (все еще не знаю, следует ли вам пить кофе, чтобы быть здоровее), и поэтому почти всегда есть искушение интерпретировать корреляцию как причинно-следственную связь.

Если, возможно, все, что вас волнует, это азартные игры (т.е. вы хотите предсказывать, но не влиять).


2

В корреляции есть ценность, но нужно искать больше доказательств, чтобы сделать вывод о причинности.

Несколько лет назад было проведено исследование, в результате которого «кофе вызывает рак». Как только я услышал это в новостях, я сказал своей жене «ложная корреляция». Оказалось, я был прав. У населения 2-3 чашки кофе в день было больше курения, чем у тех, кто не пил кофе. Как только сборщики данных выяснили это, они отозвали свои результаты.

Еще одно интересное исследование, предшествовавшее жилищному буму и краху, показало расизм, когда дело дошло до обработки ипотеки. Утверждалось, что чернокожие заявители отклонялись с большей скоростью, чем белые. Но другое исследование смотрело на показатели по умолчанию. Черные домовладельцы дефолт с той же скоростью, что и белые. Если бы черные приложения придерживались более высокого стандарта, их уровень по умолчанию был бы намного ниже. Примечание: этот анекдот был опубликован автором Томасом Соуэллом в его книге «Жилищный бум и спад»

Интеллектуальный анализ данных может легко создать два набора данных, которые показывают высокую корреляцию, но для событий, которые не могут быть связаны. В конце концов, лучше всего взглянуть на исследования, которые отправлены вам очень критическим взглядом. Найти ложные корреляции не всегда легко, это приобретенный талант.


Мне понравилось читать этот ответ. Тем не менее, кажется, что нужно обратиться к обратному вопросу: «Бесполезно ли знать, что две переменные коррелируют? ... В каких ситуациях статистик или ученый может использовать корреляцию без причинно-следственной связи?»
whuber

1
«Черные домовладельцы дефолтили с той же скоростью, что и белые. Если бы чёрные приложения придерживались более высокого стандарта, их уровень дефолта на самом деле был бы намного ниже». спешит с выводами. Именно эта проблема; чернокожие соискатели статистически будут отличаться от белых соискателей, и если больше чернокожих в группе, которая с большей вероятностью приняла ипотечный кредит по умолчанию, темнокожие соискатели с таким же уровнем дефолта указали бы на дискриминацию. Выделить мешающие эффекты сложно.
Просфилаес

Как я уже говорил, анекдот пришел от известного черного ученого. И потребовалось гораздо больше, чтобы обсудить абзац в книге, на которую я ссылался.
JTP

1

Корреляция - это наблюдаемое явление. Вы можете измерить это. Вы можете действовать на эти измерения. Само по себе это может быть полезно.

Однако, если все у вас есть корреляция, у вас нет никакой гарантии , что изменение , которое вы делаете , будет фактически иметь эффект (см известные график связывая рост айфонов к заморскому рабству и такому). Это просто показывает, что существует корреляция, и если вы настроите окружение (действуя), эта корреляция все еще может быть.

Однако это очень тонкий подход. Во многих сценариях мы хотим иметь менее тонкий инструмент: причинность. Причинность - это корреляция в сочетании с утверждением о том, что, если вы настраиваете свое окружение, действуя тем или иным образом, следует ожидать, что корреляция все еще будет сохраняться. Это позволяет более долгосрочное планирование, такое как объединение 20 или 50 причинных событий подряд для определения полезного результата. Выполнение этого с 20 или 50 корреляциями часто оставляет очень размытый и мутный результат.

В качестве примера того, как они были полезны в прошлом, рассмотрим западную науку против традиционной китайской медицины (ТКМ). Западная наука в основном фокусируется на «разработке теории, выделении теста, который может продемонстрировать теорию, проведении теста и документировании результатов». Это начинается с «разработки теории», которая тесно связана с причинностью. TCM развернул его, начав с «разработки теста, который может дать полезные результаты, запуска теста, определения корреляций в ответе». Основное внимание уделяется корреляциям.

В наши дни жители Запада предпочитают мыслить почти полностью в терминах причинности, поэтому ценность изучения корреляции труднее шпионить. Тем не менее, мы находим его скрытым в каждом уголке нашей жизни. И никогда не забывайте, что даже в западной науке корреляции являются важным инструментом для определения того, какие теории стоит исследовать!

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.