Выбор оптимального альфа в упругой сети логистической регрессии

Я выступаю упругую внутрисетевые логистическую регрессию по набору данных медико - санитарной помощи с использованием glmnetпакета в R путем выбора значения лямбды над сеткой $\alpha$ от 0 до 1. Моего сокращенного кода ниже:

alphalist <- seq(0,1,by=0.1)
elasticnet <- lapply(alphalist, function(a){
  cv.glmnet(x, y, alpha=a, family="binomial", lambda.min.ratio=.001)
})
for (i in 1:11) {print(min(elasticnet[[i]]$cvm))}

которая выводит среднюю перекрестную валидированную ошибку для каждого значения альфа от $0.0$ до $1.0$ с шагом $0.1$ :

[1] 0.2080167
[1] 0.1947478
[1] 0.1949832
[1] 0.1946211
[1] 0.1947906
[1] 0.1953286
[1] 0.194827
[1] 0.1944735
[1] 0.1942612
[1] 0.1944079
[1] 0.1948874

Исходя из того, что я прочитал в литературе, оптимальный выбор $\alpha$ - это то, где ошибка cv минимизирована. Но есть много различий в ошибках в диапазоне альфа. Я вижу несколько локальных минимумов, с глобальной ошибкой минимума 0.1942612для alpha=0.8.

Это безопасно идти с alpha=0.8? Или, учитывая вариацию, мне следует повторно запустить cv.glmnetс большим количеством сгибов перекрестной проверки (например, вместо ) или, возможно, с большим количеством приращений между и, чтобы получить четкую картину пути ошибки cv? $20$ $10$ $\alpha$ alpha=0.01.0

— RobertF
источник

Вы хотели бы взглянуть на caretпакет, который может делать повторные cv и tune для alpha и lambda (поддерживает многоядерную обработку!). По памяти, я думаю, что glmnetдокументация не подходит для настройки альфы, как вы делаете здесь. Он рекомендует сохранить фиксированные складки, если пользователь настраивает альфа в дополнение к настройке лямбда, предоставляемой cv.glmnet.

Ах, нашел этот пост здесь: stats.stackexchange.com/questions/69638/…

— RobertF

не забудьте исправить сгиб, когда вы пробуете другой

α

$\alpha$

— user4581

Для воспроизводимости никогда не запускайте cv.glmnet()без передачи foldidsсозданного из известного случайного семени.

— СМС

@amoeba взгляните на мой ответ - приветствуются компромиссы между l1 и l2!

— Ксавье Бурре Сикот

Ответы:

Выяснение того, что подразумевается под параметрами $\alpha$ и Elastic Net

Разные терминология и параметры используются разными пакетами, но смысл, как правило, одинаков:

Пакет R Glmnet использует следующее определение

$\min_{\beta_0,\beta} \frac{1}{N} \sum_{i=1}^{N} w_i l(y_i,\beta_0+\beta^T x_i) + \lambda\left[(1-\alpha)||\beta||_2^2/2 + \alpha ||\beta||_1\right]$

Склеарн использует

$\min_{w} \frac{1}{2N} \sum_{i=1}^{N} ||y - Xw ||^2_2 + \alpha \times l_1 \text{ratio} ||w||_1 + 0.5 \times \alpha \times (1 - l_1 \text{ratio}) \times ||w||_2^2$

Существуют альтернативные параметризации с использованием $a$ и $b$ .

Чтобы избежать путаницы, я собираюсь позвонить

$\lambda$ параметр силы штрафа
$L_1 \text{ratio}$ междуштрафом $L_1$ и $L_2$ , варьирующееся от 0 (гребень) до 1 (лассо)

Визуализация влияния параметров

Рассмотрим моделируемый набор данных, где $y$ состоит из шумовой синусоидальной кривой, а $X$ - это двумерный элемент, состоящий из $X_1 = x$ и $X_2 = x^2$ . Из-за корреляции между $X_1$ и $X_2$ функция стоимости является узкой долиной.

Графика ниже иллюстрируют пути решения о elasticnet регрессии с двумя различными $L_1$ параметров отношения, как функция от $\lambda$ предела прочности.

Для обеих симуляций: когда $\lambda = 0$ то решением является решение OLS в правом нижнем углу со связанной функцией стоимости в форме долины.
При увеличении $\lambda$ происходит регуляризация, и решение стремится к $(0,0)$
Основное различие между двумя симуляциями - параметр отношения $L_1$ .
LHS : для небольшого коэффициента $L_1$ регуляризованная функция затрат очень похожа на регрессию Риджа с округлыми контурами.
RHS : для большого отношения $L_1$ функция стоимости очень похожа на регрессию Лассо с типичными контурами в форме ромба.
Для промежуточного отношения $L_1$ (не показано) функция затрат представляет собой смесь двух

Понимание влияния параметров

ElasticNet был введен, чтобы противостоять некоторым ограничениям Лассо, которые:

Если есть больше переменных $p$ , чем точки данных $n$ , $p>n$ , лассо отбирает у большинства $n$ переменных.
Лассо не может выполнить групповой отбор, особенно при наличии коррелированных переменных. Он будет иметь тенденцию выбирать одну переменную из группы и игнорировать другие

$L_1$ $L_2$

$L_1$
$L_2$ $L_1$

Вы можете видеть это визуально на диаграмме выше, особенности в вершинах поощряют разреженность , в то время как строгие выпуклые ребра поощряют группирование .

Вот визуализация, взятая из Hastie (изобретатель ElasticNet)

дальнейшее чтение

— Ксавье Бурре Сикотт
источник

Позвольте мне добавить несколько очень практических замечаний, несмотря на возраст вопроса. Поскольку я не пользователь R, я не могу позволить коду говорить, но, тем не менее, это должно быть понятно.

$\alpha$ $k$ $f_1, ..., f_k$ $f(x) = \frac{1}{k}\sum_i{f_i(x)}$ $f(x) = \sqrt[k]{\prod_{i=1}^k{f_i(x)}}$
Одним из преимуществ повторной выборки является то, что вы можете проверить последовательность результатов тестов, которые здесь являются показателями cv. Вы всегда должны смотреть не только на среднее значение, но и на стандартное отклонение (оно не нормально распределено, но вы действуете так, как если бы). Обычно это значение отображается как 65,5% (± 2,57%) для точности. Таким образом, вы можете определить, являются ли «небольшие отклонения» более вероятными или случайными. Лучше было бы даже проверить полные последовательности. Если по какой-то причине всегда есть один фолд, вы, возможно, захотите переосмыслить то, как вы делаете свой сплит (это также намекает на ошибочный план эксперимента: вы перетасовали?). В Scikit-Learn GridSearchCVмагазины подробно об истечениях сгиба в cv_results_( см. Здесь ).
$\alpha$ $L_1$ $\alpha$ $L_2$

— uberwach
источник

Выбор оптимального альфа в упругой сети логистической регрессии

Выяснение того, что подразумевается под параметрами αα\alpha и Elastic Net

Визуализация влияния параметров

Понимание влияния параметров

дальнейшее чтение

Выяснение того, что подразумевается под параметрами $\alpha$ и Elastic Net