Почему выбор переменных необходим?

Общие процедуры выбора переменных на основе данных (например, прямое, обратное, пошаговое, все подмножества) имеют тенденцию приводить к появлению моделей с нежелательными свойствами, включая:

Коэффициенты смещены от нуля.
Слишком малые стандартные ошибки и слишком узкие доверительные интервалы.
Проверьте статистику и p-значения, которые не имеют объявленного значения.
Оценки соответствия модели, которые являются чрезмерно оптимистичными.
Включенные термины, которые могут быть бессмысленными (например, исключение терминов более низкого порядка).

Тем не менее, процедуры выбора переменных сохраняются. Учитывая проблемы с выбором переменных, зачем нужны эти процедуры? Что мотивирует их использование?

Некоторые предложения, чтобы начать обсуждение ....

Желание интерпретируемых коэффициентов регрессии? (Введен в заблуждение в модели со многими IV?)
Устранить дисперсию, вносимую нерелевантными переменными?
Устранить ненужные ковариации / избыточности среди независимых переменных?
Уменьшите количество оценок параметров (проблемы мощности, размера выборки)

Есть ли другие? Являются ли проблемы, решаемые методами выбора переменных, более или менее важными, чем проблемы, возникающие при выборе переменных? Когда их следует использовать? Когда их не следует использовать?

modeling feature-selection

— Brett
источник

По моему мнению, чтобы ясно обсудить проблему, нам нужно сначала уточнить ее каким-то хорошим образом, а затем сформулировать ее в соответствующей математической форме, чтобы у нас была структура, в рамках которой проблема четко обсуждается. Для задачи выбора переменной, например, для моделей линейной регрессии. Представляется целесообразным сначала исправить модель и изучить (i) преимущества / недостатки (например, улучшение / ухудшение оценки или прогнозирования) выбора переменных? (ii) преимущества процедуры выбора переменных по сравнению с оценкой LS?

Ответы:

Выбор переменных (без штрафных санкций) только усугубляет ситуацию. Выбор переменных почти не имеет шансов найти «правильные» переменные и приводит к значительному завышению эффектов оставшихся переменных и огромному занижению стандартных ошибок. Ошибочно полагать, что выбор переменной, сделанный обычным способом, помогает обойти проблему «большого p, малого n». Суть в том, что окончательная модель вводит в заблуждение во всех отношениях. Это связано с поразительным утверждением, которое я прочитал в эпидемиологической статье: «У нас не было достаточного размера выборки для разработки модели с несколькими переменными, поэтому вместо этого мы выполнили все возможные тесты для таблиц 2x2».

Каждый раз, когда данный набор данных используется для исключения переменных, при использовании Y для принятия решения все статистические величины будут искажаться. Типичный выбор переменной - мираж.

Редактировать : (Копирование комментариев снизу скрыто за сгибом)

Я не хочу быть корыстным, но моя книга « Стратегии регрессионного моделирования» углубляется в это. Интернет-материалы, включая раздаточные материалы, можно найти на моей веб-странице . Некоторые доступные методы - (регрессия гребня), (лассо) и так называемая эластичная сеть (комбинация и ). Или используйте сокращение данных (слепо для ответа ) перед выполнением регрессии. Моя книга уделяет этому больше внимания, чем наказанию. $L_2$ $L_1$ $L_1$ $L_2$ $Y$

— Фрэнк Харрелл
источник

Я думаю, что этот ответ будет улучшен, если дать несколько советов о том, как действовать. Ответ делает очень широкие и окончательные утверждения (многие из которых я в целом согласен) без ссылки на ресурсы, которые поддержали бы претензии. Конечно, наказание не является панацеей, и есть много вариантов, которые нужно сделать, если вы пойдете по этому пути.

— кардинал

Пожалуйста, смотрите выше, где я предоставил дополнительную информацию. Кратчайший способ сформулировать проблему состоит в том, что основная причина того, что переменная «выбрана», заключается в том, что ее эффект был завышен.

— Фрэнк Харрелл

Да, я согласен, что в вашей книге есть хороший материал по этому вопросу, как, например, ESL. (Тем не менее, в ESL есть, по крайней мере, пара случаев, где также используется некоторая форма обратного отбора.) Вы упоминаете (иначе регрессия гребня), но обычно это не слишком далеко в терминах переменной / модели. сам по себе выбор. Эластичная сетка имеет нормальное поведение, но, на мой взгляд, ее недостатком является то, что независимо от того, как вы на нее смотрите, она не допускает очень хорошей или естественной «статистической» интерпретации, в то время как наказания как и в определенном смысле.

L_{2}

$L_2$

L_{1}

$L_1$

L_{2}

$L_2$

— кардинал

Хорошие моменты, хотя я думаю, что дает естественную интерпретацию, потому что это просто еще один способ оценки тех же коэффициентов модели. Вы правы, что без не удаляет никакие переменные. Мы делаем это для превосходной производительности прогностической и обрабатывать большой маленького случай.

L_{2}

$L_{2}$

L_{2}

$L_{2}$

L_{1}

$L_{1}$

p

$p$

n

$n$

— Фрэнк Харрелл

Возможно, мой комментарий был не так ясен, как я хотел. Да, я согласен, что наказание само по себе имеет несколько хороших интерпретаций, даже если оно не приводит к выбору переменных. Это эластичная сеть, которую я не нахожу особенно хорошо мотивированной или естественной с точки зрения статистики, за исключением того факта, что в некоторых случаях достигаются лучшие показатели прогнозирования.

L_{2}

$L_2$

— кардинал

Прежде всего, недостатки, которые вы упомянули, - это последствия неправильного выбора объектов , то есть переоснащения, незавершенности или перерегулирования.

«Идеальная» ФС состоит из двух шагов; во-первых, это удаление всех переменных, не связанных с DV (так называемые все соответствующие проблемы, очень сложная задача, не связанная с используемой моделью / классификатором), во-вторых, ограничение набора только теми переменными, которые могут оптимально использоваться модель (например, и одинаково хороши в объяснении , но линейная модель, скорее всего, не сможет использовать в общем случае) - эта модель называется минимально оптимальной . $e^Y$ $Y$ $Y$ $e^Y$

Все соответствующие уровни дают представление о том, что действительно движет данным процессом, поэтому имеют пояснительную ценность. Минимальный оптимальный уровень (по конструкции) дает как можно более подходящую модель, работающую с максимально возможными незагроможденными данными.

Реальные ФС просто хотят достичь одной из этих целей (обычно последней).

Я предполагаю, что вы имеете в виду удаление переменных без использования данных. Вы не можете использовать набор данных под рукой, чтобы сделать это. Это было бы ненадежным и исказило бы статистический вывод.

— Фрэнк Харрелл

Как я уже писал, это лишь теоретическое обоснование проблемы (исходя из байесовских сетей). Точный способ реализовать это, очевидно, невозможен, и я, безусловно, согласен с тем, что статистическое моделирование сильно пострадало от бессмысленного использования RFE и подобных вещей, - однако в машинном обучении есть некоторые эвристические алгоритмы, которые, безусловно, не безнадежны (то есть делают стабильные выборы и модели которые оказываются неподходящими в честных испытаниях).

Что такое RFE ???????

— kjetil b halvorsen

@kjetilbhalvorsen Рекурсивное удаление функций

@mbq Спасибо за ваш интересный ответ! Можете ли вы предоставить какие-либо ссылки (книги, документы и т. Д.)? Ценю ваш ответ!

— Каре

Выбор переменных обязательно, потому что большинство моделей плохо справляются с большим количеством нерелевантных переменных. Эти переменные только внесут шум в вашу модель, или, что еще хуже, приведут вас к чрезмерному соответствию. Это хорошая идея, чтобы исключить эти переменные из анализа.

Кроме того, вы не можете включить все переменные, которые существуют в каждом анализе, потому что их существует бесконечное количество. В какой-то момент вы должны провести черту, и это хорошо делать строго. Отсюда и все обсуждения по выбору переменных.

Большинство проблем с выбором переменных может быть решено путем перекрестной проверки или с помощью модели со встроенным штрафом и выбором признаков (например, эластичная сеть для линейных моделей).

Если вас интересуют некоторые эмпирические результаты, связанные с множественными переменными, вызывающими переопределение , ознакомьтесь с результатами конкурса « Не перегружайте» на Kaggle.

— Zach
источник

Я думаю, что первый абзац содержит существенное недопонимание проблемы. Выбор переменных никоим образом не помогает с этими проблемами, а только скрывает их. Выбор переменных приводит к огромным проблемам с переоснащением, хотя, как вы упоминали позже, есть несколько способов честно наказать себя за ущерб, вызванный выбором переменных.

— Фрэнк Харрелл

@Frank Harrell: как вы решаете, какие переменные исключать из модели?

— Зак

(1) Используйте знание предмета, прежде чем смотреть на набор данных; (2) Использовать анализ избыточности / сокращение данных, слепое до Y; (3) Используйте метод, который адекватно наказывает за огромную проблему множественного сравнения, вызванную выбором функции (см. В другом месте на этой странице).

— Фрэнк Харрелл