Усреднение значений корреляции


20

Допустим, я проверяю, как переменная Yзависит от переменной Xв различных экспериментальных условиях, и получаю следующий график:

введите описание изображения здесь

Штриховые линии на графике выше представляют линейную регрессию для каждого ряда данных (экспериментальная установка), а цифры в легенде обозначают корреляцию Пирсона для каждого ряда данных.

Я хотел бы рассчитать «среднюю корреляцию» (или «среднюю корреляцию») между Xи Y. Могу ли я просто усреднить rзначения? А как насчет «среднего критерия определения», ? Должен ли я рассчитать среднее значение, а затем взять квадрат этого значения или рассчитать среднее значение отдельных R 2 ?р2rр2

Ответы:


15

Простой способ - добавить категориальную переменную чтобы идентифицировать различные экспериментальные условия, и включить ее в вашу модель вместе с «взаимодействием» с x ; то есть y z + x # z . Это проводит все пять регрессий одновременно. Его R 2 - это то, что вы хотите.ZИксY~Z+Икс#Zр2

Чтобы понять, почему усреднение отдельных значений может быть неправильным, предположим, что направление наклона меняется в некоторых экспериментальных условиях. Вы бы усреднили кучу 1 и -1 примерно до 0, что не отражало бы качество любой подгонки. Чтобы понять, почему усреднение R 2 (или любое его фиксированное преобразование) неверно, предположим, что в большинстве экспериментальных условий у вас было только два наблюдения, так что их R 2 все равны 1 , но в одном эксперименте у вас было сто наблюдений с R 2 = 0 . Среднее значение R 2, равное почти 1, не будет правильно отражать ситуацию.рр2р21р2знак равно0р2


1
простите за мое невежество, но что означает знак # в вашем ответе?
Борис Горелик

1
Я думаю, что ваш ответ очень хороший для подразумеваемого определения используемой корреляции. Что, если они имели в виду это как средний стандартизированный уклон (возможно, подразумеваемый рисунком)? В этом случае вы хотите отменить негативы и позитивы. Вы не знаете о размере выборки. Также рассмотрите возможность перемещения вашего комментария в ваш ответ.
Джон

Вы хотите или скорректированный R 2 ? р2р2
Расселпирс

@whuber в вашем первоначальном комментарии, вы имеете в виду, что корреляция может быть ; R 2 в каждом случае 1 . (Я понимаю, что это только проблема с печатанием или редактированием; это не меняет вашу точку зрения, но может ввести в заблуждение.)±1р21
Glen_b -Восстановить Монику

р2р21

24

Для коэффициентов корреляции Пирсона обычно целесообразно преобразовать значения r, используя преобразование Фишера z . Затем усредните z-значения и преобразуйте среднее обратно в значение r .

Я думаю, что это было бы хорошо и для коэффициента Спирмена.

Вот документ и википедии запись .


1
+1; Этот ответ кажется более подходящим и общим, чем принятый ответ, однако в конкретном случае использования он не развалится при значениях r, равных 1? Разумно ли здесь что-то вроде эмпирического логита, когда нужно просто «добавить» точку данных, в которой отсутствует корреляция? Если да, то где его добавить? Нужно ли проводить симуляцию Монте-Карло, выбирая две случайные величины из исходных распределений? В качестве альтернативы можно было бы просто настроить r на некоторое значение чуть меньше 1? Насколько далеко нужно отрегулировать?
Расселпирс

3

Средняя корреляция может быть значимой. Также рассмотрим распределение корреляций (например, построим гистограмму).

N

м


1

Как насчет использования среднеквадратичного прогнозируемого eror (MSPE) для производительности алгоритма? Это стандартный подход к тому, что вы пытаетесь сделать, если вы пытаетесь сравнить прогнозирующую производительность среди набора алгоритмов.


Я не уверен, почему этот пост stats.stackexchange.com/questions/17129/… был объединен с этим. На самом деле они задают два разных вопроса, на мой взгляд, - две разные цели.
StatsStudent

1
Вы правы: это разные вопросы. Я проголосовал за повторное открытие другого поста (хотя какой эффект это может иметь, неясно). Я прошу прощения за то, что не увидел ваш комментарий: если бы вы пометили этот пост, он привлек бы наше внимание на несколько лет раньше!
whuber
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.