Можно ли интуитивно объяснить алгоритм MIC для обнаружения нелинейных корреляций?

Совсем недавно я прочитал две статьи. Первый - об истории корреляции, а второй - о новом методе, названном максимальным информационным коэффициентом (MIC). Мне нужна ваша помощь, чтобы понять метод MIC для оценки нелинейных корреляций между переменными.

Более того, инструкции по его использованию в R можно найти на сайте автора (в разделе « Загрузки» ):

Я надеюсь, что это будет хорошей платформой для обсуждения и понимания этого метода. Мой интерес к обсуждению интуиции за этим методом и как его можно расширить, как сказал автор.

« ... нам нужны расширения MIC (X, Y) для MIC (X, Y | Z). Мы хотим знать, сколько данных необходимо для получения стабильных оценок MIC, насколько они восприимчивы к выбросам, какие три - или отношения более высокого измерения, которые он пропустит, и многое другое. MIC - это большой шаг вперед, но есть еще много шагов, которые нужно предпринять ".

— Биостат
источник

Вопрос интересный, но я думаю, что он не отвечает. Можете ли вы сделать это более конкретным?

— mpiktas

Обсуждению будет мешать тот факт, что статья в Science не имеет открытого доступа.

— Итамар

Вот копия статьи, выпущенной одним из авторов.

Короче говоря, MIC - это раскопки старой идеи «заговор-все-рассеянные-и-пик-те-с-самой большой-белой-областью», поэтому он в основном производит ложные срабатывания, имеет нереальную сложность

(которые авторы прячут за эвристической оценкой «только некоторые случайно выбранные пары»), и по замыслу упускают все три и более переменные взаимодействия.

O (M^{2})

$O(M^2)$

Для получения технической информации о MIC вспомогательные онлайн-материалы более информативны, чем сама статья.

— Res

Ответы:

Разве это не говорит о том, что это было опубликовано в нестатистическом журнале, в статистической рецензии которого мы не уверены? Эта проблема была решена Хоффдингом в 1948 г. (Анналы математической статистики 19: 546), который разработал простой алгоритм, не требующий ни биннинга, ни нескольких шагов. На работу Хеффдинга даже не ссылались в статье «Наука». Это было в hoeffdфункции R в Hmiscпакете в течение многих лет. Вот пример (введите example(hoeffd)R):

# Hoeffding's test can detect even one-to-many dependency
set.seed(1)
x <- seq(-10,10,length=200)
y <- x*sign(runif(200,-1,1))
plot(x,y)  # an X
hoeffd(x,y)  # also accepts a numeric matrix

D
     x    y
x 1.00 0.06
y 0.06 1.00

n= 200 

P
  x  y 
x     0   # P-value is very small
y  0

hoeffdиспользует довольно эффективную реализацию метода Хеффдинга на Фортране. Основная идея его теста состоит в том, чтобы рассмотреть различие между объединенными рангами X и Y и произведением маргинального ранга X и маргинального ранга Y, соответственно масштабированных.

Обновить

$D$

В следующем выпуске Hmiscпакета R я добавил два дополнительных вывода, связанных с , а именно среднее и максимальное которые являются полезными мерами зависимости. Однако эти меры, как и , не обладают тем свойством, которое искали создатели MIC. $D$ $|F(x,y) - G(x)H(y)|$ $D$

— Фрэнк Харрелл
источник

(+1) Бумага Хоффдинга доступна онлайн.

— Res

Хорошая находка. Может быть стоит короткой заметки для Науки, сравнивающей производительность Хеффдинга с их. Жаль, что многие хорошие исследования (во многих областях) 50-х годов были забыты за эти годы.

— Итамар

M я знак равно ЧАС (Икс) + ЧАС (Y) - ЧАС (Икс, Y)

$MI=H(X)+H(Y)-H(X,Y)$

ЧАС (Икс) знак равно - \underset{я}{Σ} п (Z_{я}) журнал п (Z_{я})

$H(X)=-\sum_i p(z_i)\log p(z_i)$

ЧАС (Икс, Y) знак равно - \underset{я, J}{Σ} п ({Икс}_{я}, Y_{J}) журнал п ({Икс}_{я}, Y_{J})

$H(X,Y)=-\sum_{i,j} p(x_i,y_j)\log p(x_i,y_j)$

Основная идея авторов - дискретизировать данные по многим различным двумерным сеткам и рассчитать нормализованные оценки, которые представляют взаимную информацию двух переменных в каждой сетке. Баллы нормализованы для обеспечения справедливого сравнения между различными сетками и варьируются от 0 (некоррелированные) до 1 (высокие корреляции).

$R^2$

— Итамар
источник

Я нашел две хорошие статьи, более четко объясняющие идею MIC, в частности, эту ; здесь второе .

Как я понял из этих прочтений, вы можете увеличить различные сложности и масштабы отношений между двумя переменными, изучая различные комбинации сеток; Эти сетки используются для разделения двухмерного пространства на ячейки. Выбирая сетку, которая содержит наибольшую информацию о том, как ячейки делят пространство, вы выбираете MIC.

Я хотел бы спросить @mbq, может ли он расширить то, что он назвал «plot-all-scatterplots-and-peak-те-с-самой большой-белой-областью» и нереальной сложностью O (M2).

— pedrosaurio
источник

Я беспокоюсь о любом статистическом методе, который использует биннинг.

— Фрэнк Харрелл

@FrankHarrell Можете ли вы предоставить ссылки или некоторую интуицию, которые подробно объясняют, почему биннинг плох? Интуитивно я вижу, что вы по сути выбрасываете информацию из-за биннинга, но должно быть больше причин, почему?

— Киран К.

Слишком много ссылок, чтобы знать, с чего начать. Никакой статистический метод, основанный на биннинге, в конечном итоге не выжил. Произвол является одной из многих проблем.

— Фрэнк Харрелл

@FrankHarrell Цените комментарий. Причина, по которой я попросил ссылки, заключается в том, что я учусь в аспирантуре и сейчас изучаю понятия зависимости и многовариантной зависимости, и хотел бы прочитать эти статьи и процитировать их в своих собственных работах в будущем. Если бы вы могли упомянуть одного или двух выдающихся, я уверен, что смогу найти остальные, о которых вы упомянули. Я также покопаюсь здесь и выложу ссылки, если найду хорошие.

— Киран К.

Начните с citeulike.org/user/harrelfe/article/13265458, а затем посмотрите другую информацию о дихотомизации на biostat.mc.vanderbilt.edu/CatContinuous . Для общей меры зависимости, не требующей биннинга, не пропустите citeulike.org/user/harrelfe/article/13264312

— Фрэнк Харрелл,