Почему статистики не используют взаимную информацию в качестве меры ассоциации?


10

Я видел пару выступлений не-статистиков, где они, похоже, заново изобретают меры корреляции, используя взаимную информацию, а не регрессию (или эквивалентные / тесно связанные статистические тесты).

Я полагаю, есть веская причина, по которой статистики не используют такой подход. Мое непрофессионал понимает, что оценки энтропии / взаимной информации, как правило, являются проблемными и нестабильными. Я полагаю, что в результате мощность также является проблематичной: они пытаются обойти это, утверждая, что они не используют параметрическую среду тестирования. Обычно такая работа не связана с расчетами мощности или даже с доверительными / достоверными интервалами.

Но чтобы занять позицию защитника дьявола, разве медленная конвергенция настолько важна, когда наборы данных чрезвычайно велики? Кроме того, иногда эти методы, кажется, «работают» в том смысле, что ассоциации подтверждаются последующими исследованиями. Какова лучшая критика против использования взаимной информации в качестве меры ассоциации и почему она не широко используется в статистической практике?

редактировать: Кроме того, есть ли хорошие документы, которые освещают эти вопросы?


3
МИ - это мера связи между двумя дискретными переменными. Это не совсем обычная настройка в общей статистике (может быть в некоторых специализированных подполях). Но в этом случае я вижу, что он используется достаточно часто. Конечно, когда я сталкиваюсь с прикладными людьми, использующими корреляцию Пирсона для двумерных дискретных наборов данных, я указываю на них MI.
user603

1
См. Также stats.stackexchange.com/questions/1052/… Однако обсуждение здесь, на мой взгляд, уже хорошо или лучше, так что обычный вопрос о дубликатах спорный.
Ник Кокс

Также для справок см. Stats.stackexchange.com/q/20011/1036
Энди В.

2
Еще одна общая ссылка - Мэтью Реймхерр и Дэн Л. Николае. 2013. О количественной оценке зависимости: основа для разработки интерпретируемых мер. Статистическая наука 28: 116-130.
Ник Кокс

Ответы:


4

Я думаю, что вы должны различать категориальные (дискретные) данные и непрерывные данные.

Для непрерывных данных корреляция Пирсона измеряет линейные (монотонные) отношения, ранговая корреляция - монотонные отношения.

МИ, с другой стороны, «обнаруживает» любые отношения. Обычно это не то, что вас интересует и / или может быть шумом. В частности, вы должны оценить плотность распределения. Но поскольку он непрерывный, вы сначала должны создать гистограмму [дискретные ячейки], а затем вычислить MI. Но так как MI допускает любые отношения, MI изменится, когда вы будете использовать меньшие корзины (то есть, вы позволите больше покачиваний). Таким образом, вы можете видеть, что оценка MI будет очень нестабильной, не позволяя вам устанавливать какие-либо доверительные интервалы для оценки и т. Д. [То же самое происходит, если вы проводите непрерывную оценку плотности.] В принципе, есть слишком много вещей, чтобы оценить, прежде чем вычислять МИ.

С другой стороны, категориальные данные очень хорошо вписываются в структуру MI (см. G-test), и выбирать между G-test и chi-squared не так уж и много.


Я в основном имею в виду случаи дискретной ассоциации (регрессия имела в виду GLM, а не только OLS). На самом деле, многие ученые, изучающие сложные явления (например, генетику), могут сказать, что их больше интересует только то, что вы описываете (обнаружение каких-либо отношений). Приманка для избежания очевидной общей критики «что если функциональная форма корреляции неверна? Конечно, я хочу обнаружить любые отношения!» сильный. Тем не менее, я думаю, что здесь присутствует заблуждение об отсутствии бесплатного обеда, но это будет упущено из виду, что я пытаюсь лучше сформулировать / понять.
user4733

1
... Я не знал о связи между тестами LR и МИ, хотя это очень интересно!
user4733
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.