Вывод без правдоподобия - что это значит?


11

Недавно я узнал о методах «без правдоподобия», которые обсуждаются в литературе. Однако мне не ясно, что означает, что метод логического вывода или метод оптимизации не имеют правдоподобия .

В машинном обучении цель обычно состоит в том, чтобы максимизировать вероятность того, что некоторые параметры соответствуют функции, например весам нейронной сети.

Так в чем же заключается философия подхода без правдоподобия, и почему такие сети, как GAN, подпадают под эту категорию?

Ответы:


10

Есть много примеров методов, не основанных на вероятностях в статистике (я не знаю о машинном обучении). Некоторые примеры:

  1. Тесты чистой значимости Фишера . Основано только на четко определенной нулевой гипотезе (такой как отсутствие разницы между молоком первым и молоком последним в эксперименте с «Леди Дегустационный чай». Это предположение приводит к распределению нулевой гипотезы, а затем к р-значению. Вероятность не задействована. Это минимальный логический механизм сам по себе не может дать основу для анализа мощности (без формально определенной альтернативы) или доверительных интервалов (без формально определенного параметра).

  2. 1. Рандомизационные тесты связаны с разницей между тестом рандомизации и тестом перестановок , который в своей основной форме является тестом чистой значимости.

  3. Начальная загрузка выполняется без необходимости использования функции правдоподобия. Но есть связи с идеями правдоподобия, например, эмпирическим правдоподобием .

  4. Методы, основанные на рангах, обычно не используют вероятность.

  5. Большая часть надежной статистики.

  6. Доверительные интервалы для медианы (или других квантилей) могут основываться на статистике заказов. Вероятность не участвует в расчетах. Доверительный интервал для медианы , Лучшая оценка для дисперсии эмпирической медианы

  7. У Вапника была идея трансдуктивного обучения, которое, по-видимому, связано с https://en.wikipedia.org/wiki/Epilogism, как обсуждалось в Талебе Черного Лебедя и Черном лебеде .

  8. В книге « Анализ данных и приближенные модели» Лори Дэвис строит систематическую теорию статистических моделей как аппроксимации, доверительные интервалы заменяются аппроксимативными интервалами, а параметрических семейств распределений нет, нет только и так далее. И никаких вероятностей.N(μ,σ2)N(9,37,2,122)

В тот момент, когда у вас есть функция вероятности, существует огромный механизм, на котором можно строить. Байесовцы не могут обойтись без него, и большинство других используют вероятность большую часть времени. Но это отмечается в комментарии, без которого даже байесовцы пытаются обойтись, см. Approximate_Bayesian_computation . Существует даже новый текст на эту тему.

Но откуда они берутся? Чтобы получить функцию правдоподобия обычным способом, нам нужно много предположений, которые трудно обосновать.

Интересно спросить, можем ли мы каким-то образом построить функции правдоподобия из некоторых из этих методов без правдоподобия. Например, пункт 6. выше, можем ли мы построить функцию правдоподобия для медианы из (семейства) доверительных интервалов, рассчитанных из статистики порядка? Я должен задать это как отдельный вопрос ...

Ваш последний вопрос о GAN я должен оставить для других.


7
(+1) Но см. Приближенный байесовский расчет . (У меня сложилось впечатление, что «без правдоподобия» больше используется для процедур, где вы ожидаете, что вам понадобится разработать функцию правдоподобия, но не нужно; вместо того, чтобы проводить рандомизирующие тесты и тому подобное, для которых вы явно не хотите т.)
Scortchi - Восстановить Монику

9

В частности, [последние] методы без правдоподобия представляют собой переписывание алгоритмов ABC, где ABC обозначает приблизительные байесовские вычисления . Это предназначено для охвата методов вывода, которые не требуют использования функции правдоподобия в закрытой форме, но все же намереваются изучить конкретную статистическую модель. Они свободны от вычислительных трудностей, связанных с вероятностью, но не от модели, которая производит эту вероятность. Смотри например

  1. Grelaud, A; Марин, JM; Роберт, C; Родольф, Ф; Tally, F (2009). "Без вероятностных методов выбора модели в случайных полях Гиббса". Байесовский анализ. 3: 427–442 .
  2. Ратман, О; Andrieu, C; Wiuf, C; Ричардсон С. (2009). «Модель критики, основанная на выводе без правдоподобия, с применением к эволюции белковой сети». Труды Национальной академии наук Соединенных Штатов Америки. 106: 10576–10581 .
  3. Базин Э., Доусон К.Д. и Бомонт М.А. (2010). Безусловный вывод о структуре населения и локальной адаптации в байесовской иерархической модели. Генетика, 185 (2), 587-602 .
  4. Диделот, Х; Эверитт, RG; Йохансен, AM; Лоусон, DJ (2011). «Вероятностная оценка модельного свидетельства». Байесовский анализ. 6: 49–76 .
  5. Gutmann, M. and Corander, J. (2016) Байесовская оптимизация для безусловного вывода статистических моделей на основе симуляторов Journal of Machine Learning Research .

2

Чтобы добавить к списку ответов, асимптотическая статистика на самом деле свободна от вероятностей.

«Вероятность» здесь относится к модели вероятности для данных . Я могу не заботиться об этом. Но я могу найти некоторую простую оценку, например среднее значение, которое представляет собой адекватную сводку данных, и я хочу сделать вывод о среднем распределении (предполагая, что оно существует, что часто является разумным предположением).

По центральной предельной теореме среднее имеет аппроксимирующее нормальное распределение при больших N, когда дисперсия также существует. Я могу создать согласованные тесты (мощность обращается в 1, когда N уходит в бесконечность, когда ноль равно false), которые имеют правильный размер. Хотя у меня есть вероятностная модель (которая является ложной) для распределения выборки среднего значения в конечных размерах выборки, я могу получить действительный вывод и объективную оценку, чтобы увеличить мою «полезную сводку данных» (среднее значение).

Следует отметить, что тесты, основанные на 95% ДИ для медианы (т.е. вариант 6 в ответе @ kjetilbhalvorsen), также полагаются на центральную предельную теорему, чтобы показать, что они согласуются. Так что не безумно рассматривать простой T-тест как «непараметрический» или «не основанный на правдоподобии» тест.


1

п(Y|Икс)ИксYп(Y|Икс)знак равноN(Y|μ(Икс),σ)п(Y|Икс), Однако, если мы не предполагаем какое-либо определенное распределение, это называется обучением без вероятности.

Почему ГАН подпадают под это? Итак, функция Loss - это нейронная сеть, и эта нейронная сеть не фиксирована, а изучена совместно. Поэтому мы больше не принимаем никакой формы (за исключением того, чтоп(Y|Икс) попадает в семейство распределений, которое может быть представлено дискриминатором, но для теории мы говорим, что это универсальный аппроксиматор функции в любом случае).

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.