Вой, вызванный использованием ступенчатой ​​регрессии


20

Мне хорошо известны проблемы пошагового / прямого / обратного отбора в регрессионных моделях. Есть многочисленные случаи, когда исследователи осуждали методы и указывали на лучшие альтернативы. Мне было любопытно, существуют ли какие-либо истории, где существует статистический анализ:

  • использовал ступенчатую регрессию;
  • сделал некоторые важные выводы на основе окончательной модели
  • заключение было неверным, что привело к негативным последствиям для человека, его исследования или их организации

Я думаю об этом, если ступенчатые методы плохие, то в «реальном мире» должны быть последствия их использования.


2
Если вы не найдете таких историй, это может быть из-за того, что ступенчатая регрессия в основном используется в фундаментальных исследованиях (или, как я понимаю). Фундаментальные исследователи обычно не попадают в неприятности из-за того, что ошибаются, если они не подделывают данные или что-то в этом роде.
Кодиолог

3
Он часто используется в промышленности и в классе. В исследовании авторы, вероятно, не будут раскрывать, что они его использовали. В отрасли две основные причины заключаются в том, что а) те, кто занимается этим, не были обучены научным исследованиям, например, имеют степень бакалавра или б) закончили обучение десятилетия назад.
Аксакал

@Aksakal Не учиться с самого начала, но овечья шкура - это проблема, а не истекшее время. Пример бесплатно , я. Я прошел один курс статистики около 1971 года и впервые использовал статистику в публикации около 2006 года.
Карл

Ответы:


1

Существует более одного вопроса. Самый узкий из них просит привести пример того, когда ступенчатая регрессия нанесла вред, потому что она была выполнена ступенчато. Это, конечно, верно, но может быть однозначно установлено только тогда, когда данные, используемые для ступенчатой ​​регрессии, также публикуются, и кто-то повторно анализирует их и публикует рецензируемую поправку с опубликованным опровержением первичных авторов. Обвинение в любом другом контексте может привести к судебному преследованию, и, если мы используем другой набор данных, мы можем заподозрить, что была допущена ошибка, но «статистика никогда ничего не доказывает», и мы не сможем установить, что ошибка была сделанный; "вне разумного сомнения".

На самом деле, часто можно получить разные результаты в зависимости от того, кто выполняет поэтапное исключение или наращивание регрессионного уравнения, что говорит о том, что ни один из подходов не является достаточно правильным, чтобы рекомендовать его использование. Понятно, что происходит что-то еще, и это подводит нас к более широкому вопросу, также задаваемому выше, но в форме маркера, который сводится к тому, «Каковы проблемы со ступенчатой ​​регрессией, так или иначе? Это более полезный вопрос, на который нужно ответить». добавленная выгода в том, что против меня не будет подан судебный иск.

Делать это правильно для пошагового MLR, значит использовать 1) физически правильные единицы (см. Ниже), и 2) соответствующее преобразование переменной для лучших корреляций и типа распределения ошибок (для гомоскедастичности и физичности), и 3) использование всех перестановок комбинаций переменных, а не пошагово, все они , и 4) если кто-то выполняет исчерпывающую регрессионную диагностику, тогда можно избежать пропусков комбинаций переменных с высокой VIF (коллинеарностью), которые в противном случае могли бы ввести в заблуждение, тогда награда - лучшая регрессия.

Как и обещано для № 1 выше, мы затем исследуем правильные единицы измерения для физической системы. Поскольку хорошие результаты регрессии зависят от правильной обработки переменных, мы должны помнить об обычных измерениях физических единиц и правильно сбалансировать наши уравнения. Кроме того, для биологических применений необходима осведомленность и учет размерности аллометрического масштабирования .

граммFрзнак равноК*W1/4В2/3граммFрW1знак равно1443+23граммFр является маркером метаболизма. 2) Фрактальная геометрия преподается редко, и физическую интерпретацию представленной формулы трудно понять даже тем, кто имеет математическую подготовку.


2
Это, кажется, описывает проблему с регрессией в целом, а не пошаговой регрессией конкретно.
Случайный статистик

2
Да, это аспекты регрессии, которые необходимо учитывать в целом. Если я правильно понимаю, откуда возникает вопрос, то это мотивировано пошаговой регрессией, часто осуждаемой в пользу использования подобных LASSO, что не решит проблемы, которые вы здесь задаете.
Случайный статистик

4
Я ценю вашу откровенность и вашу добрую волю в этом вопросе, Карл. Я не буду отрицать, что у голосования есть свои проблемы. Единственный эффективный способ изменить голосование по должности - это изменить ответ - либо технически улучшить его, либо расширить его, либо донести идеи по-другому - и даже тогда нет гарантии, что он получит желаемый ответ (или даже любой ответ вообще!). Иногда, уважительные усилия, предпринятые, чтобы понять downvoters, извлекут информацию, которая помогает всем ценить (и приветствовать) такие усилия по улучшению должности.
whuber

3
@Carl Я думаю, что если вы получаете регулярные отрицательные отзывы, первое, что нужно сделать, это подумать, как вы можете улучшить свои посты (и часто у вас есть комментарии под ними, которые предлагают улучшения). Говоря от себя, даже если я не согласен с комментатором, оказывается, что они часто поднимают вопросы, которые в любом случае приводят к лучшему ответу. Я скажу, что я регулярно замечаю проблемы с вашими ответами, которые почти заставили бы меня самому понизить рейтинг. Там, где у меня есть время, я стараюсь оставить комментарий.
Glen_b

3
Обратите внимание, что многие проблемы ступенчатой ​​регрессии - такие как проблемы с оценками, смещенными от 0, стандартные ошибки, смещенные в сторону 0, номинальные коэффициенты ошибок типа I, намного ниже, чем фактические, и множество других проблем все еще присутствуют со всеми подмножествами - - действительно, это проблема практически любой формы оптимизации ( полезной справкой является глава 4 стратегии моделирования Фрэнка Харрелла « Регрессия» ). Сокращение / регуляризация могут смягчить некоторые из этих проблем (особенно тенденцию отбора к оценкам смещения наружу), и оценка вне выборки является важным инструментом для многих из них.
Glen_b
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.