Вопрос с корреляциями на попарно полных наблюдениях
В случае, если вы описываете, основной проблемой является интерпретация. Поскольку вы используете попарно полные наблюдения, вы фактически анализируете несколько разных наборов данных для каждой из корреляций, в зависимости от того, какие наблюдения отсутствуют.
Рассмотрим следующий пример:
a <- c(NA,NA,NA, 5, 6, 3, 7, 8, 3)
b <- c(2, 8, 3, NA,NA,NA, 6, 9, 5)
c <- c(2, 9, 6, 3, 2, 3, NA,NA,NA)
Три переменные в наборе данных, a, bи c, каждый из них имеет некоторые недостающие значения. Если вы вычислите корреляции для пар переменных здесь, вы сможете использовать только те случаи, в которых отсутствуют пропущенные значения для обеих рассматриваемых переменных. В этом случае это означает, что вы будете анализировать только последние 3 случая для корреляции между aи b, только первые три случая для корреляции между bиc т. Д.
Тот факт, что вы анализируете совершенно разные случаи, когда вычисляете каждую корреляцию, означает, что результирующий паттерн корреляций может выглядеть бессмысленным. Увидеть:
> cor(a,b, use = "pairwise.complete.obs")
[1] 0.8170572
> cor(b,c, use = "pairwise.complete.obs")
[1] 0.9005714
> cor(a,c, use = "pairwise.complete.obs")
[1] -0.7559289
Это выглядит как логическое противоречие --- aи bсильно положительно коррелируют, а bи cтакже сильно положительно коррелируют, поэтому можно было бы ожидать aи cбыть положительно коррелируют , а также, но на самом деле сильная связь в направлении , противоположном. Вы можете понять, почему многим аналитикам это не нравится.
Изменить, чтобы включить полезные разъяснения от whuber:
Обратите внимание, что часть аргумента зависит от того, что может означать «сильная» корреляция. Вполне возможно, что aи bтак же, как bи « cбыть строго положительно коррелированными», в то время как существует «сильная ассоциация в противоположном направлении» между aи c, но не так сильно, как в этом примере. Суть дела в том, что оценочная матрица корреляции (или ковариации) может не быть положительно определенной: именно так следует количественно определять «сильную».
Проблема с типом пропущенности
Вы можете подумать: «Ну, разве это не нормально, просто предполагать, что подмножество случаев, которые я имею в наличии для каждой корреляции, более или менее соответствует той же схеме, что и я, если бы у меня были полные данные?» И да, это правда - нет ничего принципиально неправильного в вычислении корреляции для подмножества ваших данных (хотя вы теряете точность и мощность, конечно, из-за меньшего размера выборки), если доступные данные являются случайными Образец всех данных, которые были бы там, если бы у вас не было никаких пропусков.
Когда пропущение является чисто случайным, это называется MCAR (пропадает совершенно случайно). В этом случае анализ подмножества данных, в которых отсутствуют пропуски, не будет систематически смещать ваши результаты, и было бы маловероятно (но не невозможно) получить тот тип корреляции, который я продемонстрировал в приведенном выше примере.
Когда ваша пропущенность в некотором роде носит систематический характер (часто сокращенно MAR или NI, обозначая два разных вида систематической пропущенности), тогда у вас возникают гораздо более серьезные проблемы, как с точки зрения возможного внесения смещения в ваши расчеты, так и с точки зрения вашей способности обобщать ваши результаты для интересующей совокупности (поскольку анализируемая выборка не является случайной выборкой из совокупности, даже если бы был полный набор данных).
Есть много больших ресурсов , доступных , чтобы узнать о недостающих данных и как бороться с этим, но моя рекомендация Рубин:
классический ,
и более недавней статье