Если корреляция не подразумевает причинно-следственную связь, то какова ценность знания корреляции между двумя переменными?


11

Допустим, как владелец бизнеса (или маркетолог, или любой, кто понимает точечный график) показан точечный график из двух переменных: количество рекламных объявлений против количества продаж продукта в месяц за последние 5 лет (или другой временной масштаб, чтобы вы есть больше образцов. Я только что сделал это).

Теперь он видит график рассеяния и ему говорят, что коэффициент корреляции:

  1. 1 или
  2. 0,5 или
  3. 0,11 или
  4. 0 или
  5. -0,75 или
  6. -1

В основном любое действительное значение для corr

Вопрос: Что это вообще значит для лица, принимающего решение, или любого потребителя разбросанного сюжета? Какие решения можно принять только на основании этого?

То есть, какой смысл видеть корреляцию между любыми двумя переменными и что можно делать с этой информацией изолированно? Это только для того, чтобы увидеть, что нужно учитывать, а не для включения в регрессионный анализ, или есть более практическое применение?

Просто любопытно, я всегда работал с этой техникой, но мне сказали, что сама по себе корреляция не очень полезна - так, что "ЕСТЬ" использование?

Ответы:


12

Несколько мыслей:

  • Старый слух о корреляции, не являющейся причинностью, - только половина истории. Корреляция не может быть причиной, но некоторая форма связи между этими двумя переменными является необходимым шагом на пути к показу причинности, и корреляция может помочь показать это.
  • Это помогает указать на тенденции. Покажите это владельцу бизнеса, и они могут сказать: «Да, это имеет смысл, вы видите, что Widget X и Widget Y оба в конечном итоге используются определенной группой людей, даже если они на самом деле не связаны. Или они могут сказать «это ... странно», после чего вы вызвали дальнейшее расследование.
  • Рассмотрим этот вариант. Корреляция это инструмент. Молоток сам по себе не так уж и полезен. Это, конечно, не построит дом сам по себе. Но вы когда-нибудь пытались построить дом без молотка?

5
В своей первой статье вы говорите, что корреляция является необходимым условием для причинно-следственной связи - это не так. Если между двумя переменными существует немонотонная связь, то они могут быть некоррелированными - это не исключает причинно-следственную связь.
Макро

@Macro - правда, и отредактировано
Fomite

@Macro Правда, но на практике вы можете применить функцию к своей переменной, чтобы сделать тестируемое отношение монотонным. если вы не знаете эту функцию, то ... вы мало знаете о том, что ищете
RockScience

@EpiGrad: предположим, что XY-график корреляции двух переменных выглядит как счастливый смайлик (или любая другая фигура как таковая). Коэффициент корреляции на самом деле будет довольно небольшим, но определенно будет некоторая взаимосвязь, верно? Как / что нужно делать в таком случае?
PhD

@ Nupul Несколько более сложное исследование XY за пределами линейности.
Fomite

7

Посмотрите на это с точки зрения азартных игр. Допустим, мы знаем, что в среднем люди, которые носят рабочие ботинки, будут иметь на работе 1,5 травмы, а люди, носящие лоферы, получат в среднем 0,05 травм. Или, возможно, вероятность получения травмы для человека, носящего рабочие ботинки, составляет 0,85, а вероятность получения травмы для человека, который носит лоферы, составляет 0,1.

Если я выберу случайного человека из населения и скажу вам, что на нем надеты рабочие ботинки, и предложу вам ставку на равные деньги в том, имели ли они травму на рабочем месте в прошлом году, вы бы приняли эту ставку? Что ж, вы бы приняли ставку, если бы смогли сделать ставку на стороне, которая получила травму. В 85% случаев вы выиграете, и вы получите даже деньги.

Дело в том, что знание этой информации дает нам информацию о том, могут ли они получить травму на работе. Обувь не имеет к этому никакого отношения, фактически, рабочие ботинки предотвращают травмы. это тип работы, который сочетается с рабочими ботинками .. И, возможно, другие вещи, как человек, возможно, более безрассудный.


6

Фраза «корреляция не подразумевает причинно-следственную связь» переоценивается. (Как писал Коэн, «это очень большой намек».) Мы вбиваем эту фразу в студентов из-за предвзятости, присущей человеческому разуму. Когда вы слышите «уровень преступности коррелирует с уровнем бедности» или что-то в этом роде, вы не можете не думать, что это означает, что бедность является причиной преступления. Это естественно для людей, потому что так работает ум. Мы используем эту фразу снова и снова в надежде противостоять этому. Однако, как только вы освоите идею, фраза потеряет большую часть своей ценности, и пришло время перейти к более сложному пониманию.

Когда есть корреляция между двумя переменными, есть две возможности: все это совпадение или есть какая-то причинно-следственная связь в работе. Называя образец в мире совпадением, это ужасная объяснительная схема и, вероятно, должно быть вашим последним средством. Это оставляет причинность. Проблема в том, что мы не знаем природу этой причинной структуры. Вполне может быть, что бедность вызывает преступность, но также может быть и то, что преступность вызывает бедность (например, люди не хотят жить в зоне с высоким уровнем преступности, поэтому они уезжают, а стоимость имущества падает и т. Д.). Это также может быть , что есть какая - то третья переменная или группа переменных , которые вызывают как преступность и бедность, но нет, на самом деле, нет прямойпричинно-следственная связь между преступностью и бедностью (известная как модель «общего дела»). Это особенно пагубно, потому что в статистической модели все другие источники вариаций сведены в член ошибки зависимой переменной. В результате независимая переменная соотносится с (вызванным) ошибочным членом, что приводит к проблеме эндогенности . Эти проблемы очень сложны, и их не следует воспринимать легкомысленно. Тем не менее, даже в этом сценарии важно признать, что на работе существует реальная причинность.

Короче говоря, когда вы видите корреляцию, вы должны думать , что , вероятно, какое - то причинно - следственную связь в игре где - то , но вы не знаете природу этого причинного рисунка.


4

Я думал, что я хорошо осведомлен об этих вещах, но только в прошлом месяце я посмотрел «подразумеваемый» в словаре и обнаружил, что он имеет два поразительно разных значения. 1. Предлагайте и 2. Необходимы. (!) Корреляция редко требует причинно-следственной связи, но она, безусловно, может предложить это. Как указывает @EpiGrad, это необходимое, но не достаточное условие для установления причинно-следственной связи.

С течением времени мы надеемся найти золотую середину между восприятием корреляции как конечного результата и совершенно бесполезной И при интерпретации результатов корреляции учитываются знания, специфичные для предмета / предметной области / содержания. Мало кто будет подвергать сомнению наличие какой-либо причинно-следственной связи при просмотре описанных вами результатов продаж рекламы. Но всегда хорошо оставаться открытыми для других возможностей, других переменных, которые могут хотя бы частично объяснить наблюдаемые отношения. Чтения о смешанных переменных, валидности и т. П. Окупаются большими дивидендами. Например, в старой классической Квазиэкспериментации Кука и Кэмпбелла есть хороший раздел о действительности и угрозах действительности.


1
Как я указал на @EpiGrad, корреляция не является необходимым условием для причинно-следственной связи. В анализе данных широко распространено представление о том, что отношение между переменными всегда относится к монотонному отношению, которое молчаливо предполагается, предполагая, что корреляция является необходимым условием причинности.
Макро

1
Справедливо. Допустим, тогда необходимо «статистическое объединение».
rolando2

2

Коэффициент корреляции, как и другие меры ассоциации, полезен, если вы хотите узнать, насколько знание значения X информативно о значении Y. Это отличается от знания, нужно ли устанавливать X для определенного значения, что значение Y вы бы получили (что является сутью контрфактуальной интерпретации причинности).

Тем не менее, во многих контекстах (например, прогнозирование) выводы, основанные на корреляции, были бы ценны сами по себе. Желтые зубы связаны с раком легких (так как они оба, вероятно, вызваны раком). Между этими двумя понятиями нет причин: отбеливание зубов не излечит рак легких. Но если вам нужен быстрый скрининговый тест на наличие рака легких, проверка на наличие желтых зубов может быть хорошим первым шагом.

Другой вопрос, является ли коэффициент корреляции наилучшей доступной мерой ассоциации, но я думаю, что вопрос больше в том, какова ценность знания не причинно-следственной связи.

Между прочим, корреляция не только не является достаточной демонстрацией причинности, но и не является необходимой. Две переменные могут быть причинно связаны, но не обнаруживать корреляции в каком-либо конкретном наборе данных (например, из-за смещения выбора или факторов).


1

корреляция сама по себе не имеет большого смысла - так что "ЕСТЬ" польза?

Позвольте мне не согласиться с этой фразой, корреляция позволяет узнать уровень ассоциации между 2 переменными. Затем, это полезно при попытке объяснить связь между такими переменными. С другой стороны, (как писал Макрос) корреляция не является необходимым условием для причинно-следственной связи, однако, достаточно для объяснения уровня ассоциации. Кроме того, вы можете проверить независимость переменных, но корреляция может дать вам другую полезную информацию, коэффициент детерминации.

Тем не менее, аналитик должен знать область, чтобы иметь возможность объяснить тип отношений.


Я не уверен, что вы подразумеваете под этим:Furthermore, you can test the independence of the variables, but correlation can give you another useful information, the coefficient of determination
PhD

Я имел в виду: «Вы можете проверить независимость переменных», но в любом случае, даже если не проверяете независимость, информацию о корреляции и коэффициент. определения «полезны» для понимания и объяснения вида связи между переменными.
Хосе Зубкофф

1

Я думаю, что сбор данных и дизайн исследования также могут сыграть роль в ответе на этот вопрос. Вы не будете разрабатывать исследование и собирать набор данных, совершенно не относящихся друг к другу, даже в наблюдательных исследованиях. Поэтому "корреляция не подразумевает причинно-следственную связь" может быть оправдана. Даже при том, что это не причинно-следственная связь, может быть связь, связанная.

Однако, если вы говорите о двух наборах данных, совершенно не относящихся к делу, но все же хотите использовать корреляцию для объяснения связи и причинно-следственной связи, то это может быть неуместно. Например, если все два набора данных имеют тенденцию к снижению, например, продажи мороженого и количество браков, коэффициент корреляции может быть очень высоким. Но нужно ли иметь в виду ассоциацию?

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.