Методы наказания за категориальные данные: объединение уровней в фактор

Наказанные модели могут использоваться для оценки моделей, в которых количество параметров равно или даже превышает размер выборки. Такая ситуация может возникнуть в лог-линейных моделях больших разреженных таблиц категориальных данных или данных подсчета. В этих настройках часто также желательно или полезно сворачивать таблицы, комбинируя уровни фактора, где эти уровни не различимы с точки зрения их взаимодействия с другими факторами. Два вопроса:

Есть ли способ использовать оштрафованные модели, такие как LASSO или эластичная сетка, для проверки способности уровней к каждому фактору?
Если ответ на первый вопрос - да, можно и нужно ли это настроить таким образом, чтобы коллапс уровней и оценка коэффициентов модели происходили за один шаг?

— andrewH
источник

Этот документ, doi.org/10.1177/1471082X16642560 , дает хороший обзор того, что было сделано в этой области за последнее десятилетие или около того.

— Джорн Бикклер

Примечание: штраф, который я обсуждаю ниже, это уравнение 3.4 в ссылке @JorneBiccler. (Интересно, что этот вопрос уже рассматривался!)

— user795305

Возможный дубликат категориальных переменных Preprocess со многими значениями

— kjetil b halvorsen

Как мы можем назвать это дубликатом вопроса, который предшествовал этому?

— Майкл Р. Черник

Это возможно. Мы можем использовать вариант слитого лассо, чтобы достигнуть этого.

\hat{β} = \arg min_{β} \frac{- 1}{n} \sum_{i = 1}^{n} (y_{i} β^{T} x_{i} - e^{β^{T} x_{i}}) + \sum_{factors g} λ_{g} (\sum_{j \in g} | β_{j} | + \frac{1}{2} \sum_{j, k \in g} | β_{j} - β_{k} |) .

$\hat{\beta} = \arg\min_{\beta} \frac{-1}{n} \sum_{i=1}^n \left(y_i \beta^T x_i - e^{\beta^T x_i} \right) + \sum_{\textrm{factors g}} \lambda_g \left(\sum_{j \in g} |\beta_j| + \frac{1}{2} \sum_{j,k \in g} |\beta_j - \beta_k| \right).$

Обратите внимание, что является функцией потерь для логарифмической линейной функции моделей. $\frac{-1}{n} \sum_{i=1}^n \left(y_i \beta^T x_i - e^{\beta^T x_i} \right)$

Это поощряет равные коэффициенты в группе. Это равенство коэффициентов эквивалентно сворачиванию и уровней фактора вместе. В случае, когда , это эквивалентно свертыванию уровня с опорным уровнем. Параметры настройки могут рассматриваться как константы, но если есть только несколько факторов, было бы лучше рассматривать их как отдельные. $j^{th}$ $k^{th}$ $\hat{\beta}_j=0$ $j^{th}$ $\lambda_g$

Оценка является минимизатором выпуклой функции, поэтому она может быть эффективно вычислена с помощью произвольных решателей. Вполне возможно, что если фактор имеет много-много уровней, эти попарные различия выйдут из-под контроля - в этом случае потребуется знать больше структуры о возможных закономерностях коллапса.

Обратите внимание, что все это выполняется за один шаг! Это часть того, что делает оценки типа лассо такими крутыми!

Другой интересный подход заключается в использовании оценщика ОСКАР, который аналогичен приведенному выше, за исключением того, что штраф заменяется на . $\|[-1 \, 1] \cdot [\beta_i \, \beta_j]'\|_1$ $\|[\beta_i \, \beta_j]\|_\infty$

— user795305
источник