@Silverfish попросил расширить ответ от PolatAlemdar, который не был дан, поэтому я постараюсь раскрыть его здесь.
Почему название числовое расстояние? Числовой тест для таблиц сопряженности основан на
поэтому идея состоит в том, чтобы сохранить эту форму и использовать ее как мера расстояния. Это дает третью формулу OP, где интерпретируется как наблюдение, а как ожидание, что объясняет комментарий Полата Алемдара «Он используется в дискретных распределениях вероятностей», как, например, при проверке на соответствие. Эта третья форма не является функцией расстояния, так как она асимметрична по переменным и . Для сравнения гистограммы нам понадобится функция расстояния, которая симметрична по и xiyixyxy1
χ2= ∑ячейки( Oя- Eя)2Ея
ИксяYяИксYИксYи две первые формы дают это. Разница между ними заключается только в постоянном множителе , что неважно, если только вы последовательно выбираете одну форму (хотя версия с дополнительным множителем лучше, если вы хотите сравнить с асимметричной формой). Обратите внимание на сходство в этих формулах с евклидовым расстоянием в квадрате, которое не является совпадением, а квадратное расстояние является своего рода
взвешенным евклидовым расстоянием. По этой причине формулы в ОП обычно ставятся под корневым знаком для получения
расстояний . В следующем мы следуем этому.
11212
Числовое расстояние также используется в анализе соответствия. Чтобы увидеть связь с используемой там формой, пусть будут ячейками таблицы сопряженности с строками и колонками. Обозначим итоговые значения строки а итоговые значения столбца - . Числовое расстояние между строками определяется как
Для случая только с двумя строками (две гистограммы) они восстанавливают первую формулу OP (по модулю корневого знака). R C x + j = ∑ i x i j x i + = ∑ j x i j l , k χИкся жрСИкс+ j= ∑яИкся жИкся += ∑JИкся жл , к
χ2( л , k ) = ∑J1Икс+ j( хL жИксл +- хК JИкск +)2-------------------⎷
EDIT
Отвечая на вопрос в комментариях ниже: Книга с длительным обсуждением расстояния в квадрате - «АНАЛИЗ КОРРЕСПОНДЕНЦИИ В ПРАКТИКЕ (Второе издание)» Майкла Гринакра (Chapman & Hall). Это хорошо зарекомендовавшее себя название, исходя из его сходства с числовым значением, которое используется в таблицах сопряженности. Какой дистрибутив у него есть? Я никогда не изучал это, но, вероятно, (при некоторых условиях ...) это будет иметь некоторое распределение по квадратам, примерно. Доказательства должны быть аналогичны тому, что делается с таблицами сопряженности, большинство литературы по анализу соответствия не входит в теорию распределения. Статья, имеющая некоторую, может быть, соответствующую такую теорию, http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0101-74382016000100023 . Также см/stats//search?q=%22chisquare+distance%22 для некоторых других соответствующих сообщений на этом сайте.