Что такое «Целевое ожидание максимального правдоподобия»?

Я пытаюсь понять некоторые работы Марка ван дер Лаана. Он - теоретический статистик в Беркли, работающий над проблемами, которые существенно пересекаются с машинным обучением. Одна проблема для меня (помимо глубокой математики) состоит в том, что он часто заканчивает тем, что описывает знакомые подходы машинного обучения, используя совершенно другую терминологию. Одна из его основных концепций - «Целевое ожидание максимального правдоподобия».

TMLE используется для анализа цензурированных данных наблюдений из неконтролируемого эксперимента таким образом, который позволяет оценить эффект даже при наличии смешивающих факторов. Я сильно подозреваю, что многие из тех же самых понятий существуют под другими именами в других областях, но я еще не понимаю это достаточно хорошо, чтобы сопоставить его напрямую с чем-либо.

Попытка преодолеть разрыв с «Анализ вычислительных данных» здесь:

Вступая в эру науки о данных: целевое обучение и интеграция статистики и вычислительного анализа данных

И введение для статистиков здесь:

Целевой причинный вывод на основе максимального правдоподобия: Часть I

Со второго:

В этой статье мы разрабатываем конкретную целевую оценку максимального правдоподобия причинных воздействий нескольких интервалов времени. Это включает в себя использование суперобучения на основе потерь для получения начальной оценки неизвестных факторов формулы G-вычисления, а затем, применение конкретной оптимальной функции флуктуации целевого параметра (наименее благоприятная параметрическая подмодель) к каждому оцененному коэффициенту, оценивают параметр (ы) флуктуации с оценкой максимального правдоподобия и повторяют этот этап обновления исходного фактора до сходимости. Этот шаг обновления целевого итеративного целевого максимального правдоподобия делает результирующий оценщик причинного эффекта вдвойне надежным в том смысле, что он непротиворечив, если любой начальный оценщик непротиворечив, или оценка оптимальной функции флуктуации является последовательной. Оптимальная функция флуктуации указывается правильно, если правильно определены условные распределения узлов в причинном графе, в который он вмешивается.

В его терминологии «суперобучение» - это ансамблевое обучение с теоретически обоснованной неотрицательной весовой схемой. Но что он имеет в виду, «применяя определенную оптимальную функцию флуктуации целевого параметра (наименее благоприятная параметрическая подмодель) к каждому оцениваемому фактору».

Или, разбив его на три отдельных вопроса, имеет ли TMLE параллель в машинном обучении, что такое «наименее благоприятная параметрическая подмодель» и что такое «функция флуктуации» в других областях?

— Натан Курц
источник

Одна из причин, по которой терминология может быть незнакомой, заключается в том, что целью TMLE является оценка среднего эффекта лечения - причинный вывод, а не прогноз. Когда я читал «супер ученик» в статьях по TMLE, я думал, что авторы заимствовали этот термин из пакета SuperLearner в R для построения моделей ансамблей.

— RobertF

Я согласен, что ван дер Лаан имеет тенденцию придумывать новые имена для уже существующих идей (например, супер-ученик), но, насколько я знаю, TMLE не является одним из них. На самом деле это очень умная идея, и я не видел ничего из сообщества машинного обучения, которое выглядело бы похожим (хотя я мог бы просто не знать). Идеи исходят из теории полупараметрически эффективных уравнений оценивания, о которой, как мне кажется, статистики думают гораздо больше, чем о людях ОД.

Идея по сути заключается в следующем. Предположим, что является истинным механизмом генерирования данных, и интерес представляет конкретный функционал . С таким функционалом часто связано оценочное уравнение $P_0$ $\Psi(P_0)$

\sum_{i} φ (Y_{i} ∣ θ) = 0,

$\sum_i \varphi(Y_i \mid \theta) = 0,$

$\theta = \theta(P)$ $P$ $\Psi$ $\varphi$ $E_{P} \varphi(Y \mid \theta) = 0$ $\theta$ $P_0$ $\Psi(P_0)$ (Примечание: я немного ослаблен термином «эффективный», так как я просто описываю эвристику.) Теория, лежащая в основе таких оценочных уравнений, довольно изящна, поскольку эта книга является канонической ссылкой. Здесь можно найти стандартные определения «наименее благоприятных подмоделей»; это не термины, изобретенные ван дер Лааном.

$P_0$ $P_0$ $\Psi(P_0)$ $P_0$ $\hat P$ $\Psi(\hat P)$ $\sqrt n$ $P_0$ $\Psi$

$\hat p$

{\hat{p}}_{1, ϵ} = \frac{\hat{p} \exp (ϵ φ (Y ∣ θ))}{\int \hat{p} \exp (ϵ φ (y ∣ θ)) d y}

$\hat p_{1, \epsilon} = \frac{\hat p \exp(\epsilon \ \varphi(Y \mid \theta))}{\int \hat p \exp(\epsilon \ \varphi(y \mid \theta)) \ dy}$

$\epsilon$ $\epsilon$ $\epsilon = 0$ $\hat p$ $\Psi$ $\epsilon \ne 0$ $\hat p_1$ $\hat p$

{\hat{p}}_{2, ϵ} \propto {\hat{p}}_{1, \hat{ϵ}} \exp (ϵ φ (Y ∣ θ) .

$\hat p_{2, \epsilon} \propto \hat p_{1, \hat \epsilon} \exp(\epsilon \ \varphi(Y \mid \theta).$

и так до тех пор, пока мы не получим в пределе что-либо, удовлетворяющее уравнению эффективной оценки.

— парень
источник

«Я согласен, что ван дер Лаан имеет тенденцию придумывать новые имена для уже существующих идей» - да, см. Это введение в TMLE: biostats.bepress.com/ucbbiostat/paper252 , где ван дер Лаан использует «случайное укрупнение» для обозначения взаимозаменяемость и «предположение об экспериментальном назначении лечения (ETA)» означают позитивность. :-) Это не очень необычно в нашей области. Исследователи данных используют такие термины, как отзыв, точность и A / B-тестирование, которые я выучил как чувствительность, положительную прогностическую ценность и проверку гипотез в колледже.

— RobertF

@RobertF CAR принадлежит Хейтджану и Рубину и является обобщением МАР. Рубин изобрел MAR, а также популяризировал систему потенциальных результатов, поэтому использование CAR в качестве универсального подхода к предположениям типа невежественности / взаимозаменяемости кажется мне справедливым.

— парень