Я попытался собрать несколько замечаний о ковариации расстояния, основываясь на своих впечатлениях от чтения ссылок, перечисленных ниже. Однако я не считаю себя экспертом в этой теме. Комментарии, исправления, предложения и т. Д. Приветствуются.
Замечания (сильно) смещены в сторону потенциальных недостатков, как и требовалось в первоначальном вопросе .
На мой взгляд, потенциальные недостатки заключаются в следующем:
- Методология новая . Я предполагаю, что это единственный важный фактор, связанный с отсутствием популярности в настоящее время. Документы, описывающие ковариацию расстояния, начинаются в середине 2000-х годов и продвигаются до наших дней. Вышеуказанная статья привлекла наибольшее внимание (ажиотаж?), И ей менее трех лет. Напротив, теория и результаты по корреляции и корреляционные меры имеют более чем столетнюю работу за ними.
- Основные понятия более сложные . Соотношение «продукт-момент» Пирсона на операционном уровне довольно легко можно объяснить первокурснику из колледжа, не имеющему оснований для исчисления. Можно изложить простую «алгоритмическую» точку зрения, а геометрическую интуицию легко описать. Напротив, в случае ковариации расстояний даже понятие сумм произведений попарно евклидовых расстояний несколько сложнее, и понятие ковариации относительно случайного процесса выходит далеко за рамки того, что можно разумно объяснить такой аудитории. ,
- Это вычислительно более требовательно . Основным алгоритмом для вычисления статистики теста является в размере выборки, а не для стандартных метрик корреляции. Для небольших размеров выборки это не имеет большого значения, но для более крупных это становится более важным.O ( n2)O ( n )
- Статистика теста не распространяется бесплатно, даже асимптотически . Можно надеяться, что для тестовой статистики, которая совместима со всеми альтернативами, что распределение - по крайней мере асимптотически - может быть независимым от базовых распределений и при нулевой гипотезе. Это не относится к ковариации расстояний, поскольку распределение под нулем зависит от базового распределения и даже если размер выборки стремится к бесконечности. Это является истинным , что распределения равномерно ограничены распределения, что позволяет для расчета консервативного критического значения.ИксYИксYχ21
- Корреляция расстояний является взаимно-однозначным преобразованиемв двумерном нормальном случае| ρ | . Это на самом деле не недостаток, и может даже рассматриваться как сила. Но если принять двумерное нормальное приближение к данным, которое может быть довольно распространенным на практике, то мало что, если вообще что-либо, получается от использования корреляции расстояний вместо стандартных процедур.
- Неизвестные энергетические свойства . Быть последовательным в отношении всех альтернатив по существу гарантирует, что дистанционная ковариация должна иметь очень низкую мощность по сравнению с некоторыми альтернативами. Во многих случаях каждый желает отказаться от общности, чтобы получить дополнительную власть против определенных альтернатив, представляющих интерес. В оригинальных работах приводятся некоторые примеры, в которых они заявляют о высокой мощности по сравнению со стандартными метриками корреляции, но я считаю, что, возвращаясь к (1) выше, его поведение по отношению к альтернативам еще не до конца понятно.
Повторюсь, этот ответ, вероятно, встречается довольно отрицательно. Но это не намерение. Есть несколько очень красивых и интересных идей, связанных с ковариацией расстояния, и относительная новизна этого также открывает исследовательские возможности для более полного ее понимания.
Рекомендации :
- GJ Szekely и ML Rizzo (2009), броуновская дистанционная ковариация , Ann. Appl. Statist. том 3, нет 4, 1236–1265.
- GJ Szekely, ML Rizzo и NK Bakirov (2007), Измерение и проверка независимости по корреляции расстояний , Ann. Statist. том 35, 2769–2794.
- Р. Лайонс (2012), Ковариация расстояния в метрических пространствах ,
Ann. Вероятно. (появляться).