Онлайн модуль, который я изучаю, утверждает, что никогда не следует использовать корреляцию Пирсона с данными о пропорциях. Почему бы нет?
Или, если это иногда хорошо или всегда хорошо, почему?
Онлайн модуль, который я изучаю, утверждает, что никогда не следует использовать корреляцию Пирсона с данными о пропорциях. Почему бы нет?
Или, если это иногда хорошо или всегда хорошо, почему?
Ответы:
Это для случая, когда несколько переменных суммируются вместе в 1 в каждом наблюдении. Мой ответ будет на уровне интуиции; это намеренно (а также, я не эксперт по композиционным данным).
Пусть у нас есть iid (следовательно, с нулевой корреляцией) положительно-значимые переменные, которые мы затем суммируем и пересчитываем как пропорции этой суммы. Затем,
each V summing to 1 ( 100%)
Извините? Я вас не поняла Я не ставлю никаких ограничений на отдельные V, только будучи дробью. Однако первоначальное ограничение заключалось в том, что мой пример предполагает нулевую корреляцию до превращения V в дроби.
Ссылка на видео вашего комментария устанавливает контекст для композиций, которые также могут называться микстами. В этих случаях сумма доли каждого компонента складывается до 1. Например, воздух составляет 78% азота, 21% кислорода и 1% других (общее количество составляет 100%). Учитывая, что количество одного компонента полностью определяется другими, любые два компонента будут иметь идеальные мультилинейные отношения. Для примера с воздухом имеем:
итак:
Так что, если вы знаете какие-либо два компонента, третий сразу известен.
Как правило, ограничение на смеси
Вы можете вычислить корреляцию между двумя компонентами, но она не является информативной , поскольку они всегда коррелируют. Вы можете прочитать больше о композиционном анализе в разделе Анализ данных, измеренных как пропорциональный состав .
Вы можете использовать корреляцию, когда данные о пропорциях поступают из разных доменов. Скажите, что ваш ответ - это доля битых пикселей на ЖК-экране. Вы можете попытаться соотнести это, скажем, с долей гелия, используемой на этапе химической обработки экрана.
Given that the amount of one component is completely determined by the others, any two components will have a perfect co-linear relationship
непонятно. Вы можете расширить это?
Это глубокий вопрос, и у него есть некоторые тонкости, которые необходимо сформулировать. Я буду стараться изо всех сил, но даже несмотря на то, что я опубликовал эту тему (« Пропорциональность: допустимая альтернатива корреляции для относительных данных» ), я всегда готов удивляться новым взглядам на анализ данных, содержащих только относительную информацию.
Как отмечают участники этой цепочки, корреляция печально известна (в некоторых кругах) тем, что она бессмысленна при применении к композиционным данным, которая возникает, когда набор компонентов ограничивается суммой до константы (как мы видим с пропорциями, процентами, частей на миллион и т. д.).
Карл Пирсон ввел термин « ложная корреляция» с учетом этого. (Примечание: популярный Тайлер Виген в паразитной Корреляции сайт не столько о ложной корреляции , как « корреляция подразумевает причинную обусловленность » ошибочность.)
Раздел 1.7 Aitchison's (2003) «Краткое руководство по композиционному анализу данных» предоставляет классическую иллюстрацию того, почему корреляция является неуместной мерой ассоциации для композиционных данных (для удобства, цитируется в этой дополнительной информации) .
Композиционные данные возникают не только тогда, когда набор неотрицательных компонентов делается для суммирования с константой; данные называются композиционными, если они несут только относительную информацию.
Я думаю, что главная проблема с корреляцией данных, которые несут только относительную информацию, заключается в интерпретации результата. Это проблема, которую мы можем проиллюстрировать с помощью одной переменной; скажем, «пончики, произведенные на доллар ВВП» в разных странах мира. Если ценность одной нации выше, чем другой, это потому, что
...кто может сказать?
Конечно, как отмечают люди в этой теме, можно рассчитать корреляции этих видов переменных как описательную переменную. Но что означают такие корреляции?
У меня такой же вопрос. Я нашел эту ссылку на biorxiv полезной:
Ловелл Д., В. Павловский-Глан, Дж. Эгозкуе, С. Маргерат, Й. Белер (2014),
«Пропорциональность: действительная альтернатива корреляции для относительных данных»
Во вспомогательной информации этого документа (Ловелл, Дэвид и др.; Doi: dx.doi.org/10.1101/008417) авторы упоминают, что корреляции между относительными обилиями в некоторых случаях не дают никакой информации. Они приводят пример относительного содержания двух экспрессий мРНК. На рисунке S2 относительные содержания двух разных мРНК совершенно отрицательно коррелированы, хотя корреляция этих двух мРНК в абсолютных значениях не имеет отрицательного отношения (зеленые точки и фиолетовые точки).
Может быть, это может помочь вам.