Насколько оправданно выбирать

11

Когда я определяю свою лямбду через перекрестную проверку, все коэффициенты становятся равными нулю. Но у меня есть некоторые намеки из литературы, что некоторые из предикторов должны определенно повлиять на результат. Является ли ерундой произвольно выбирать лямбду, чтобы не было столько разреженности, сколько хочется?

Я хочу выбрать 10 или около того предикторов из 135 для модели Кокса, а размеры эффекта, к сожалению, невелики.

lasso

— Миура
источник

6

Похоже, вы должны использовать информативный априор, поскольку у вас есть информация, не основанная на данных.

— вероятностная

В глубине души я чувствую, что это было бы правильно, к сожалению, мне даже сейчас не хватает статистического мастерства, чтобы начать делать это.

— Миура

1

Вы, кажется, путаете две разные вещи: (1) Если литература говорит вам использовать конкретные предикторы, включите их во все модели. (2) Вместо этого вы, кажется, интерпретируете это как указание на то, что вам следует выбрать определенное число из множества предикторов, независимо от того, включают ли они конкретные, упомянутые в литературе. Не могли бы вы уточнить, чего вы на самом деле пытаетесь достичь?

— whuber

4

Если вы хотите иметь хотя бы определенное количество предикторов с определенным диапазоном значений, определенным в литературе, зачем начинать с подхода чистого LASSO? Как подсказывает @probabilityislogic, вы должны использовать некоторые информативные априорные значения для тех переменных, о которых у вас есть знания. Если вы хотите сохранить некоторые из свойств LASSO для остальных предикторов, возможно, вы могли бы использовать априор с двойным экспоненциальным распределением для каждого другого входа, т. Е. Использовать плотность вида где

p (β_{i}) = \frac{λ}{2} exp (- λ | β_{i} |),

$p(\beta_i)=\frac{\lambda}{2}\text{exp}\left(-\lambda|\beta_i|\right),$

λ

$\lambda$ множитель Лагранжа, соответствующий решению чистого ЛАССО. Это последнее утверждение исходит из того факта, что при отсутствии переменных с информативными априорными данными это еще один способ получения LASSO (путем максимизации апостериорного режима с учетом предположений нормальности для остатков).

— Нестора
источник

3

Существует хороший способ выполнить LASSO, но использовать фиксированное количество предикторов. Это регрессия наименьшего угла (LAR или LARS), описанная в статье Эфрона. В ходе итерационной процедуры создается несколько линейных моделей, каждая из которых имеет еще один предиктор, поэтому вы можете выбрать одну с требуемым числом предикторов.

Другой способ - или . Как упомянуто Нестором, используя соответствующие приоры, вы можете включить предварительные знания в модель. Так называемая машина векторности релевантности может быть полезна. $l_1$ $l_2$

— Алексей Зайцев
источник

3

Хотя LARS и лассо тесно связаны, для фиксированного числа предикторов они могут даже не включать в себя одни и те же переменные. Можно выбрать на величину штрафа за лассо , которое дает нужное количество предсказателей, но выбор ни в том, ни в другом случае будет уникальным! Следовательно, OP еще не предоставил четко определенную процедуру, которая является частью проблемы. Для LARS есть хорошая выгода, что штрафные значения, дающие определенное количество предикторов, образуют интервал, поэтому выбор конечной точки (какой?) Или средней точки или какого-либо другого критерия несколько проще.

— кардинал

1

Да, это правда, что LARS и LASSO не идентичны, но простая модификация LARS, предложенная авторами в оригинальной статье, может быть введена для получения решений LASSO с использованием техники на основе LARS.

— Алексей Зайцев

Да, Алексей, это правда. Я предполагаю, что мой комментарий вращается вокруг того, почему переход к LARS во-первых. Обычно можно так же легко выбрать значение параметра штрафа для лассо, которое дает желаемое количество предикторов. Основной вопрос, который остался без внимания, заключается в том, как сделать уникальный выбор и какие последствия могут иметь место в случае ФП. :)

— кардинал

2

Нет, это не оправданно. Огромное препятствие, которое призваны преодолеть процедуры выбора модели, заключается в том, что мощность истинной поддержкинеизвестно (Здесь мы имеем, что является «истинным» коэффициентом.) Потому чтонеизвестно, процедура выбора модели должна провести тщательный поиск по всем возможным моделям; однако, если бы мы зналимы могли бы просто проверить модели , что намного меньше. $\left| S^* \right| = \left| \left\{ j : \beta^*_j \neq 0 \right\} \right|$ $\beta^*$ $|S^*|$ $2^p$ $|S^*|$ ${p \choose |S^*|}$

Теория лассо основывается на достаточно большом параметре регуляризации , чтобы сделать выбранную модель достаточно разреженной. Может случиться так, что ваши 10 функций слишком много или слишком мало, так как нетрудно превратить нижнюю границу в верхнюю границу, $\lambda$ $\lambda$ $|S^*|$

Пусть будет нашей управляемой данными оценкой для , и положим . Тогда, возможно, вы пытаетесь убедиться, что чтобы вы восстановили хотя бы соответствующие функции? Или, может быть, вы пытаетесь установить этот чтобы вы знали, что все найденные вами функции имеют смысл? В этих случаях ваша процедура была бы более оправданной, если бы у вас была предварительная информация об относительных размерах . $\hat\beta$ $\beta^*$ $\hat{S} = \{j \, : \, \hat\beta_j \neq 0 \}$ $S^* \subseteq \hat{S}$ $\hat{S} \subseteq S^*$ $S^*$

Кроме того, обратите внимание, что некоторые коэффициенты можно оставить невыполненными, например, при выполнении лассо в glmnet.

— user795305
источник