Такая вещь, как взвешенная корреляция?

У меня есть некоторые интересные данные о самых популярных музыкальных артистах, разделенных по местоположению на 200 избирательных округов. Я хочу посмотреть, возможно ли опросить человека по его или ее музыкальным предпочтениям и определить, «слушает ли он как демократ» или «слушает ли как республиканец». (Естественно, это легкомысленный, но в данных есть реальная энтропия!)

У меня есть данные о 100 художниках плюс средний процент голосов за республиканцев и демократов в каждом округе за последние три избирательных цикла. Таким образом, я установил соотношение для каждого художника, чтобы увидеть, каких из них слушали наиболее непропорционально, как функцию доли голосов для демократов. Эти корреляции варьируются от -0,3 до 0,3 для каждого художника, с большим количеством посередине, которые имеют небольшую или нулевую предсказательную силу.

У меня есть два вопроса: во-первых, общее количество потоков в районе сильно варьируется. Прямо сейчас я сопоставляю процент всех потоков в округе, принадлежащих, скажем, Бейонсе, с процентом голосов, отданных за демократов. Но общее количество потоков в одном районе может исчисляться миллионами, а в другом - 100 000 человек. Нужно ли как-то взвесить корреляцию, чтобы учесть это?

Во-вторых, мне любопытно, как объединить эти корреляции в сложное предположение относительно политики пользователя. Допустим, я беру 20 художников с самыми высокими абсолютными корреляционными значениями (положительными и отрицательными), по десять в каждом направлении, и опрашиваю пользователя о том, насколько он или она любит каждого художника. Таким образом, у меня есть голоса «за» или «против» каждого художника плюс соотношение к политике для всех 20 ценностей. Есть ли стандартный способ объединить эти корреляции в одну оценку? (Я думаю, что-то вроде знаменитой викторины NYTimes на диалекте , где она объединила региональные вероятности для 25 вопросов в тепловую карту. Но в этом случае мне просто нужно одно значение того, насколько демократичен или республиканец вкус в музыке.

Спасибо!

— Крис Уилсон
источник

Формулу для взвешенной корреляции Пирсона можно легко найти в Интернете , в StackOverflow и в Википедии, и она реализована в нескольких R-пакетах, например psych или weights, и в пакете statsmodels в Python . Он рассчитывается как обычная корреляция, но с использованием взвешенных средних ,

м_{Икс} знак равно \frac{\underset{я}{Σ} {вес}_{я} {Икс}_{я}}{\underset{я}{Σ} {вес}_{я}}, м_{Y} знак равно \frac{\underset{я}{Σ} {вес}_{я} Y_{я}}{\underset{я}{Σ} {вес}_{я}}

$m_X = \frac{\sum_i w_i x_i}{\sum_i w_i}, ~~~~ m_Y = \frac{\sum_i w_i y_i}{\sum_i w_i}$

взвешенные отклонения ,

s_{Икс} знак равно \frac{\underset{я}{Σ} {вес}_{я} ({Икс}_{я} - м_{Икс})^{2}}{\underset{я}{Σ} {вес}_{я}}, s_{Y} знак равно \frac{\underset{я}{Σ} {вес}_{я} (Y_{я} - м_{Y})^{2}}{\underset{я}{Σ} {вес}_{я}}

$s_X = \frac{\sum_i w_i (x_i - m_X)^2}{ \sum_i w_i}, ~~~~ s_Y = \frac{\sum_i w_i (y_i - m_Y)^2}{ \sum_i w_i}$

и взвешенная ковариация

s_{Икс Y} знак равно \frac{\underset{я}{Σ} {вес}_{я} ({Икс}_{я} - м_{Икс}) (Y_{я} - м_{Y})}{\underset{я}{Σ} {вес}_{я}}

$s_{XY} = \frac{\sum_i w_i (x_i - m_X)(y_i - m_Y)}{ \sum_i w_i}$

имея все это, вы можете легко вычислить взвешенную корреляцию

ρ_{Икс Y} знак равно \frac{s_{Икс Y}}{\sqrt{s_{Икс} s_{Y}}}

$\rho_{XY} = \frac{s_{XY}}{\sqrt{s_X s_Y}}$

Что касается вашего второго вопроса, насколько я понимаю, у вас будут данные о корреляции между политической ориентацией и предпочтениями для двадцати артистов и пользователей, бинарные ответы о его / ее предпочтениях, и вы хотите получить какую-то совокупную меру этого.

Давайте начнем с усреднения корреляций. Существует несколько методов усреднения вероятностей , но, похоже, не так много подходов к усреднению корреляций. Единственное , что можно было бы сделать , это использовать Фишера -преобразование $z$ , как описано на MathOverflow , т.е.

\bar{ρ} знак равно {TANH}^{- 1} (\frac{Σ_{J знак равно 1}^{К} TANH (ρ_{J})}{К})

$\bar\rho = \tanh^{-1} \left(\frac{\sum_{j=1}^K \tanh(\rho_j)}{K} \right)$

В основном, взятие касательных коэффициентов корреляции «выравнивает» экстремальные значения (см. Ниже), поэтому они оказывают меньшее влияние на окончательную оценку и приближают их распределение к нормальному. Эта процедура была также описана Бушманом и Вангом (1995) и Кори, Данлэпом и Бёрком (1998).

$r = \mathrm{cor}(X,Y)$ $-r = \mathrm{cor}(-X,Y) = \mathrm{cor}(X,-Y)$

$r_j$ $j$ $x_{ij}$ $i$ $j$ $x_{ij} = 1$ $x_{ij} = -1$

{\bar{р}}_{я} знак равно {TANH}^{- 1} (\frac{Σ_{J знак равно 1}^{К} TANH (р_{J} {Икс}_{я J})}{К})

$\bar r_i = \tanh^{-1} \left(\frac{\sum_{j=1}^K \tanh(r_j x_{ij})}{K} \right)$

$-1$ $1$

Но...

Не думаете ли вы, что все это является излишним для чего-то, что в основном является проблемой множественной регрессии? Вместо всего взвешивания и усреднения вы можете просто использовать взвешенную множественную регрессию (линейную или логистическую в зависимости от того, прогнозируете ли вы двоичное предпочтение или отклонение от степени в любом направлении), где веса основаны на размерах подвыборок. Вы должны использовать музыкальные предпочтения для каждого художника в качестве предиктора. В конце вы будете использовать предпочтения пользователя, чтобы делать прогнозы. Этот подход проще и статистически элегантнее. Это также относится к относительным $A$ $B$

Bushman, BJ & Wang, MC (1995). Процедура объединения выборочных коэффициентов корреляции и подсчета голосов для получения оценки и доверительного интервала для коэффициента корреляции населения. Психологический вестник, 117 (3), 530.

Кори Д.М., Данлэп В.П. и Берк М.Дж. (1998). Усредняющие корреляции: ожидаемые значения и отклонения в комбинированных преобразованиях Пирсона и Фишера, Журнал общей психологии, 125 (3), 245-261.

— Тим
источник

Спасибо! Это очень помогает. Присудит награду, когда она станет доступной позже сегодня.

— Крис Уилсон

x_{i}

$x_i$

y_{i}

$y_i$

@Kagaratsch Я никогда не видел такой формулы. Это квалифицируется как хороший вопрос.

— Тим