Квантильная регрессия: функция потери

24

Я пытаюсь понять квантильную регрессию, но одна вещь, которая заставляет меня страдать, это выбор функции потерь.

$\rho_\tau(u) = u(\tau-1_{\{u<0\}})$

Я знаю, что минимум ожидания равен -квентилю, но какова интуитивная причина начинать с этой функции? Я не вижу связи между минимизацией этой функции и квантиля. Может кто-нибудь объяснить это мне? $\rho_\tau(y-u)$ $\tau\%$

quantiles loss-functions quantile-regression

— CDO
источник

28

Я понимаю этот вопрос как запрос о понимании того, как можно придумать любую функцию потерь, которая производит данный квантиль в качестве минимизатора потерь, независимо от того, каким может быть базовое распределение. Тогда было бы неудовлетворительно просто повторить анализ в Википедии или где-либо еще, который показывает, что эта конкретная функция потерь работает.

Давайте начнем с чего-то знакомого и простого.

То , что вы говорите о том , найти «местоположение» относительно распределения или набора данных . Хорошо известно, например, что среднее значение минимизирует ожидаемый квадрат невязки; то есть это значение, для которого $x^{*}$ $F$ $\bar x$

L_{F} (\bar{x}) = \int_{R} (x - \bar{x})^{2} d F (x)

$\mathcal{L}_F(\bar x)=\int_{\mathbb{R}} (x - \bar x)^2 dF(x)$

настолько мал, насколько это возможно. Я использовал это обозначение, чтобы напомнить нам, что является производным от потери , что он определяется , но самое главное, это зависит от числа . $\mathcal{L}$ $F$ $\bar x$

Стандартный способ показать, что минимизирует любую функцию, начинается с демонстрации того, что значение функции не уменьшается, когда немного изменяется. Такое значение называется критической точкой функции. $x^{*}$ $x^{*}$

Какой тип функции потерь приведет к тому, что процентиль будет критической точкой? Потеря этого значения будет $\Lambda$ $F^{-1}(\alpha)$

L_{F} (F^{- 1} (α)) = \int_{R} Λ (x - F^{- 1} (α)) d F (x) = \int_{0}^{1} Λ (F^{- 1} (u) - F^{- 1} (α)) d u .

$\mathcal{L}_F(F^{-1}(\alpha)) = \int_{\mathbb{R}} \Lambda(x-F^{-1}(\alpha))dF(x)=\int_0^1\Lambda\left(F^{-1}(u)-F^{-1}(\alpha)\right)du.$

Чтобы это было критической точкой, ее производная должна быть равна нулю. Поскольку мы просто пытаемся найти какое-то решение, мы не будем останавливаться, чтобы посмотреть, являются ли манипуляции законными: мы планируем проверить технические детали (например, можем ли мы действительно дифференцировать и т. Д. ) В конце. таким образом $\Lambda$

\begin{matrix} (1) & \begin{aligned} 0 & = L_{F}^{'} (x^{*}) = L_{F}^{'} (F^{- 1} (α)) = - \int_{0}^{1} Λ^{'} (F^{- 1} (u) - F^{- 1} (α)) d u \\ = - \int_{0}^{α} Λ^{'} (F^{- 1} (u) - F^{- 1} (α)) d u - \int_{α}^{1} Λ^{'} (F^{- 1} (u) - F^{- 1} (α)) d u . \end{aligned} \end{matrix}

$\eqalign{0 &=\mathcal{L}_F^\prime(x^{*})= \mathcal{L}_F^\prime(F^{-1}(\alpha))= -\int_0^1 \Lambda^\prime\left(F^{-1}(u)-F^{-1}(\alpha)\right)du \\ &= -\int_0^{\alpha} \Lambda^\prime\left(F^{-1}(u)-F^{-1}(\alpha)\right)du -\int_{\alpha}^1 \Lambda^\prime\left(F^{-1}(u)-F^{-1}(\alpha)\right)du.\tag{1} }$

С левой стороны аргумент отрицательный, тогда как с правой стороны он положительный. Кроме этого, мы мало контролируем значения этих интегралов, потому что может быть любой функцией распределения. Следовательно, наша единственная надежда состоит в том, чтобы заставить зависеть только от знака своего аргумента, в противном случае он должен быть постоянным. $\Lambda$ $F$ $\Lambda^\prime$

Это означает, что будет кусочно-линейной, возможно, с разными наклонами слева и справа от нуля. Очевидно, что при приближении к нулю оно должно уменьшаться - это, в конце концов, потеря, а не выгода . Более того, изменение масштаба по константе не изменит его свойств, поэтому мы можем свободно устанавливать левый наклон в . Пусть будет правым уклоном. Тогда упрощается до $\Lambda$ $\Lambda$ $-1$ $\tau \gt 0$ $(1)$

0 = α - τ (1 - α),

$0 = \alpha - \tau (1 - \alpha),$

откуда уникальное решение, вплоть до положительного множителя,

Λ (x) = {\begin{cases} - x, x \leq 0 \\ \frac{α}{1 - α} x, x \geq 0. \end{cases}

$\Lambda(x) = \cases{-x, \ x \le 0 \\ \frac{\alpha}{1-\alpha}x, \ x \ge 0.}$

Умножение этого (естественного) решения на , чтобы очистить знаменатель, дает функцию потерь, представленную в вопросе. $1-\alpha$

Очевидно, что все наши манипуляции математически законны, когда имеет эту форму. $\Lambda$

— Whuber
источник

19

Способ выражения этой функции потерь хорош и компактен, но я думаю, что ее легче понять, переписав ее как

ρ_{τ} (X - m) = (X - m) (τ - 1_{(X - m < 0)}) = {\begin{cases} τ | X - m | & i f X - m \geq 0 \\ (1 - τ) | X - m | & i f X - m < 0) \end{cases}

$\rho_\tau(X-m) = (X-m)(\tau-1_{(X-m<0)}) = \begin{cases} \tau |X-m| & if \; X-m \ge 0 \\ (1 - \tau) |X-m| & if \; X-m < 0) \end{cases}$

Если вы хотите получить интуитивное представление о том, почему при минимизации этой функции потерь получается квантиль th, полезно рассмотреть простой пример. Пусть - равномерная случайная величина между 0 и 1. Давайте также выберем конкретное значение для , скажем, . $\tau$ $X$ $\tau$ $0.25$

Итак, теперь вопрос в том, почему эта функция потерь будет минимизирована при ? Очевидно, что в равномерном распределении справа от масса в три раза больше, чем слева. А функция потерь взвешивает значения, превышающие это число, только на треть от веса, присвоенного значениям, меньшим его. Таким образом, интуитивно понятно, что шкалы сбалансированы, когда квантиль th используется в качестве точки перегиба для функции потерь. $m=0.25$ $m$ $\tau$

— jjet
источник

1

Не должно ли быть иначе? Недоумение будет стоить в три раза дороже?

— Эди Бис

Спасибо, что поймали это. Формула верна, но я изначально неправильно сформулировал ее в своем объяснении.

— Джет