Когда ковариация расстояния менее подходит, чем линейная ковариация?

Я только что познакомился (смутно) с броуновской / дистанционной ковариацией / корреляцией . Это кажется особенно полезным во многих нелинейных ситуациях при тестировании на зависимость. Но это, кажется, не используется очень часто, хотя ковариация / корреляция часто используются для нелинейных / хаотических данных.

Это заставляет меня думать, что у ковариации расстояния могут быть некоторые недостатки. Так что же это такое, и почему не все всегда используют ковариацию расстояния?

correlation covariance distance-covariance

— naught101
источник

Для справки, я создал версию корреляции дистанционной корреляции в википедии

— naught101

Я читал, что вы использовали dcov, чтобы сравнить нелинейные временные ряды и объединить их с весом. Мне было интересно, использовали ли вы ковариацию взвешенного расстояния. Это означало, что вы дали разные веса своим данным, используя вектор весов для вычисления корреляция расстояния? Я пытаюсь это сделать, но я не уверен, что введение весового вектора в формулы корреляции расстояний - правильный путь.

— user3757561

Нет, извините @ user3757561, я просто пробовал корреляцию расстояний как замену корреляции, а затем создавал веса на основе этого. Но я все равно не использовал его ...

— naught101

Ответы:

Я попытался собрать несколько замечаний о ковариации расстояния, основываясь на своих впечатлениях от чтения ссылок, перечисленных ниже. Однако я не считаю себя экспертом в этой теме. Комментарии, исправления, предложения и т. Д. Приветствуются.

Замечания (сильно) смещены в сторону потенциальных недостатков, как и требовалось в первоначальном вопросе .

На мой взгляд, потенциальные недостатки заключаются в следующем:

Методология новая . Я предполагаю, что это единственный важный фактор, связанный с отсутствием популярности в настоящее время. Документы, описывающие ковариацию расстояния, начинаются в середине 2000-х годов и продвигаются до наших дней. Вышеуказанная статья привлекла наибольшее внимание (ажиотаж?), И ей менее трех лет. Напротив, теория и результаты по корреляции и корреляционные меры имеют более чем столетнюю работу за ними.
Основные понятия более сложные . Соотношение «продукт-момент» Пирсона на операционном уровне довольно легко можно объяснить первокурснику из колледжа, не имеющему оснований для исчисления. Можно изложить простую «алгоритмическую» точку зрения, а геометрическую интуицию легко описать. Напротив, в случае ковариации расстояний даже понятие сумм произведений попарно евклидовых расстояний несколько сложнее, и понятие ковариации относительно случайного процесса выходит далеко за рамки того, что можно разумно объяснить такой аудитории. ,
Это вычислительно более требовательно . Основным алгоритмом для вычисления статистики теста является в размере выборки, а не для стандартных метрик корреляции. Для небольших размеров выборки это не имеет большого значения, но для более крупных это становится более важным. $O(n^2)$ $O(n)$
Статистика теста не распространяется бесплатно, даже асимптотически . Можно надеяться, что для тестовой статистики, которая совместима со всеми альтернативами, что распределение - по крайней мере асимптотически - может быть независимым от базовых распределений и при нулевой гипотезе. Это не относится к ковариации расстояний, поскольку распределение под нулем зависит от базового распределения и даже если размер выборки стремится к бесконечности. Это является истинным , что распределения равномерно ограничены распределения, что позволяет для расчета консервативного критического значения. $X$ $Y$ $X$ $Y$ $\chi^2_1$
Корреляция расстояний является взаимно-однозначным преобразованиемв двумерном нормальном случае $|\rho|$ . Это на самом деле не недостаток, и может даже рассматриваться как сила. Но если принять двумерное нормальное приближение к данным, которое может быть довольно распространенным на практике, то мало что, если вообще что-либо, получается от использования корреляции расстояний вместо стандартных процедур.
Неизвестные энергетические свойства . Быть последовательным в отношении всех альтернатив по существу гарантирует, что дистанционная ковариация должна иметь очень низкую мощность по сравнению с некоторыми альтернативами. Во многих случаях каждый желает отказаться от общности, чтобы получить дополнительную власть против определенных альтернатив, представляющих интерес. В оригинальных работах приводятся некоторые примеры, в которых они заявляют о высокой мощности по сравнению со стандартными метриками корреляции, но я считаю, что, возвращаясь к (1) выше, его поведение по отношению к альтернативам еще не до конца понятно.

Повторюсь, этот ответ, вероятно, встречается довольно отрицательно. Но это не намерение. Есть несколько очень красивых и интересных идей, связанных с ковариацией расстояния, и относительная новизна этого также открывает исследовательские возможности для более полного ее понимания.

Рекомендации :

GJ Szekely и ML Rizzo (2009), броуновская дистанционная ковариация , Ann. Appl. Statist. том 3, нет 4, 1236–1265.
GJ Szekely, ML Rizzo и NK Bakirov (2007), Измерение и проверка независимости по корреляции расстояний , Ann. Statist. том 35, 2769–2794.
Р. Лайонс (2012), Ковариация расстояния в метрических пространствах , Ann. Вероятно. (появляться).

— кардинальный
источник

Отличный ответ, спасибо.

— Отчасти

См. Также Резюме и обсуждение: Клуб статистических журналов «Броуновское дистанционное ковариация», 36-825 Бенджамин Коули и Джузеппе Винчи, 27 октября 2014 г. stat.cmu.edu/~ryantibs/journalclub/dcov.pdf

— Фелипе Дж. Невински,

O (n \log n)

$\mathcal{O}(n \log n)$

Я вполне мог бы что-то упустить, но просто количественная оценка нелинейной зависимости между двумя переменными, похоже, не принесет больших результатов. Это не скажет вам форму отношений. Это не даст вам возможности предсказать одну переменную из другой. По аналогии, при проведении исследовательского анализа данных иногда используют кривую лёсса (локально взвешенный график рассеяния) в качестве первого шага, чтобы увидеть, лучше ли моделируются данные с помощью прямой линии, квадратичного, кубического и т. Д. Но потеря в и само по себе не очень полезный инструмент прогнозирования. Это всего лишь первое приближение на пути к поиску работоспособного уравнения для описания двумерной формы. Это уравнение, в отличие от лёсса (или результата ковариации расстояния), может служить основой подтверждающей модели.

— rolando2
источник

Для моих целей это имеет смысл. Я не использую dcov () для предсказания чего-либо, а скорее сравниваю несколько нелинейных временных рядов в ансамбле и комбинирую их с весами на основе их зависимости. В этой ситуации dcov () имеет потенциально большие преимущества.

— naught101

@ naught101 Можете ли вы добавить некоторую дополнительную информацию? - когда вы говорите - «объединить»? Это звучит интересно для меня с точки зрения взвешивания на основе нелинейной зависимости. Вы имеете в виду, что временные ряды делятся на группы? Кроме того - что подчеркивают высокие и низкие веса в этом сценарии?

— катафалк

@PraneethVepakomma: зацените мой ответ на stats.stackexchange.com/questions/562/…

— naught101

Кроме того, если вам известен общий вид зависимости (например, полиномиальное уравнение), то вы можете количественно оценить силу зависимости, используя коэффициент детерминации, см., Например, « Вычисление скорректированного R2 для полиномиальных регрессий»

— Фелипе Г. Ньевинский