Вопрос с корреляциями на попарно полных наблюдениях
В случае, если вы описываете, основной проблемой является интерпретация. Поскольку вы используете попарно полные наблюдения, вы фактически анализируете несколько разных наборов данных для каждой из корреляций, в зависимости от того, какие наблюдения отсутствуют.
Рассмотрим следующий пример:
a <- c(NA,NA,NA, 5, 6, 3, 7, 8, 3)
b <- c(2, 8, 3, NA,NA,NA, 6, 9, 5)
c <- c(2, 9, 6, 3, 2, 3, NA,NA,NA)
Три переменные в наборе данных, a
, b
и c
, каждый из них имеет некоторые недостающие значения. Если вы вычислите корреляции для пар переменных здесь, вы сможете использовать только те случаи, в которых отсутствуют пропущенные значения для обеих рассматриваемых переменных. В этом случае это означает, что вы будете анализировать только последние 3 случая для корреляции между a
и b
, только первые три случая для корреляции между b
иc
т. Д.
Тот факт, что вы анализируете совершенно разные случаи, когда вычисляете каждую корреляцию, означает, что результирующий паттерн корреляций может выглядеть бессмысленным. Увидеть:
> cor(a,b, use = "pairwise.complete.obs")
[1] 0.8170572
> cor(b,c, use = "pairwise.complete.obs")
[1] 0.9005714
> cor(a,c, use = "pairwise.complete.obs")
[1] -0.7559289
Это выглядит как логическое противоречие --- a
и b
сильно положительно коррелируют, а b
и c
также сильно положительно коррелируют, поэтому можно было бы ожидать a
и c
быть положительно коррелируют , а также, но на самом деле сильная связь в направлении , противоположном. Вы можете понять, почему многим аналитикам это не нравится.
Изменить, чтобы включить полезные разъяснения от whuber:
Обратите внимание, что часть аргумента зависит от того, что может означать «сильная» корреляция. Вполне возможно, что a
и b
так же, как b
и « c
быть строго положительно коррелированными», в то время как существует «сильная ассоциация в противоположном направлении» между a
и c
, но не так сильно, как в этом примере. Суть дела в том, что оценочная матрица корреляции (или ковариации) может не быть положительно определенной: именно так следует количественно определять «сильную».
Проблема с типом пропущенности
Вы можете подумать: «Ну, разве это не нормально, просто предполагать, что подмножество случаев, которые я имею в наличии для каждой корреляции, более или менее соответствует той же схеме, что и я, если бы у меня были полные данные?» И да, это правда - нет ничего принципиально неправильного в вычислении корреляции для подмножества ваших данных (хотя вы теряете точность и мощность, конечно, из-за меньшего размера выборки), если доступные данные являются случайными Образец всех данных, которые были бы там, если бы у вас не было никаких пропусков.
Когда пропущение является чисто случайным, это называется MCAR (пропадает совершенно случайно). В этом случае анализ подмножества данных, в которых отсутствуют пропуски, не будет систематически смещать ваши результаты, и было бы маловероятно (но не невозможно) получить тот тип корреляции, который я продемонстрировал в приведенном выше примере.
Когда ваша пропущенность в некотором роде носит систематический характер (часто сокращенно MAR или NI, обозначая два разных вида систематической пропущенности), тогда у вас возникают гораздо более серьезные проблемы, как с точки зрения возможного внесения смещения в ваши расчеты, так и с точки зрения вашей способности обобщать ваши результаты для интересующей совокупности (поскольку анализируемая выборка не является случайной выборкой из совокупности, даже если бы был полный набор данных).
Есть много больших ресурсов , доступных , чтобы узнать о недостающих данных и как бороться с этим, но моя рекомендация Рубин:
классический ,
и более недавней статье