Подсказки, что проблема хорошо подходит для линейной регрессии


12

Я изучаю линейную регрессию, используя Введение в анализ линейной регрессии Монтгомери, Пека и Вайнинга . Я хотел бы выбрать проект анализа данных.

У меня наивная мысль, что линейная регрессия подходит только тогда, когда подозревают, что существуют линейные функциональные отношения между объясняющими переменными и переменной отклика. Но не так много реальных приложений, казалось бы, соответствуют этому критерию. Тем не менее, линейная регрессия настолько распространена.

О каких аспектах проекта подумал бы опытный статистик, если бы они были на моем месте, ища вопрос + данные, которые хорошо подходят для линейной регрессии.


3
Я ценю, что вы изучаете технику и хотите знать, где она будет работать. Но для опытных статистиков (и статистически мыслящих ученых) ситуация совершенно иная: существует проблема и данные, а затем вопрос в том, какие модели и методы являются лучшим выбором. Вы увидите, что линейная регрессия, с которой вы столкнулись впервые, - это всего лишь одна разновидность; Имея опыт, люди с удовольствием переходят к регрессии Пуассона, регрессии логита и т. д., и даже линейность параметров можно легко сочетать с более общими структурами.
Ник Кокс

и, конечно, временной ряд mdels, когда наблюдения потенциально автокоррелированы
IrishStat

3
В действительности линейные модели используются слева и справа, даже когда мы знаем, что отношения нелинейны. Представьте, что линейная модель является приближением первого порядка, своего рода многомерным разложением Тейлора.
Аксакал

Ответы:


12

У меня наивная мысль, что линейная регрессия подходит только тогда, когда подозревают, что существуют линейные функциональные отношения между объясняющими переменными и переменной отклика. Но не так много реальных приложений, казалось бы, соответствуют этому критерию.

Это не правильное понимание того, что является «линейным» в «линейной регрессии».

Предполагается, что это не отношения между и x , которые имеют линейную форму (хотя все элементарные примеры могут ввести вас в заблуждение).yx

«Линейный» относится к модели, являющейся линейной по параметрам, и нелинейные отношения между и некоторым x, безусловно, могут быть смоделированы таким образом.yx

Там пример с одним предсказателем здесь , но криволинейные модели чаще установлены в качестве множественной регрессии, где несколько функций предсказателя (х переменного, независимые переменного) могут иметь место в регрессии, и это позволяет большую гибкость. Это включает в себя полиномиальную регрессию, например. Смотрите некоторые обсуждения и примеры здесь .

Однако, если мы учтем тот факт, что предикторы могут быть преобразованы для соответствия изогнутым отношениям, линейность параметров также соответствует линейности в этих преобразованных предикторах.

Кроме того, многие проблемы близки к линейным (по крайней мере, в диапазоне рассматриваемых значений) или настолько шумны, что любая легкая кривизна не заметна, и может подойти множество простых моделей для возрастающей или убывающей взаимосвязи: и в этом случае линейный выбор может быть как адекватным, так и самым простым для подбора и понимания.

О каких аспектах проекта подумал бы опытный статистик, если бы они были на моем месте, ища вопрос + данные, которые хорошо подходят для линейной регрессии.

Единственный раз, когда я мог бы найти проблему, к которой можно применить регрессию, - это когда я пытаюсь найти хороший пример для обучения. Когда я на самом деле в состоянии выполнять статистическую работу (а не объяснять или преподавать ее), я выбираю методологию, соответствующую интересующему вопросу (и характеристикам данных), а не выбираю данные, подходящие для метода.

Представьте себе плотника, например. Плотник не поднимает спицы и говорит: «На чем я могу это использовать ?». Скорее, у плотника есть проблема, которую нужно решить, и при рассмотрении характеристик проблемы («что я пытаюсь сделать?» И «какую древесину я использую?» И т. Д.) Могут быть использованы конкретные инструменты более актуальным, чем другие. Иногда инструменты, которые доступны , могут ограничивать или направлять выбор (если вы не имеете в скобель, вы , возможно , придется делать с чем - то другим ... или вы можете просто пойти купить скобель).

Однако, давайте предположим , что у вас есть карманный статистик помочь вам , и вы пытаетесь найти проблему подходит для линейной регрессии. Затем они могут предложить вам рассмотреть различные предположения регрессии и когда они имеют значение. Я упомяну несколько вещей.

E(y|g(x))g(x)gx=xE(y|x)=a+bx

Если вы можете использовать множественную регрессию, даже если это не является особой проблемой, поскольку можно использовать (например) сплайны кубической регрессии для соответствия довольно общим отношениям.

Я бы посоветовал вам избегать данных с течением времени, если вы не понимаете проблемы с ложной регрессией; придерживаться проблем сечения.

xx

x

Если вы интересуетесь проверкой гипотез, доверительными интервалами или интервалами прогнозирования, то могут иметь значение более обычные регрессионные допущения (но есть альтернативы, которые не делают этих допущений, а в некоторых случаях, по крайней мере, некоторые из допущений могут не быть особенно важным в любом случае).

Так что, по крайней мере, одна вещь, о которой нужно знать, это то, что делается при выводе логических процедур, которые вы используете, и насколько они важны для вашей конкретной проблемы (например, при выполнении обычных проверок гипотез, нормальность - это предположение, но в больших выборках это предположение может быть не важным, с другой стороны, допущение о постоянной дисперсии может быть более серьезной проблемой).

Есть ряд постов, в которых обсуждаются предположения о регрессии, а также некоторые посты, в которых обсуждается, когда их вообще нужно делать, сколько они могут иметь значение и даже в каком порядке их рассматривать.


Хороший ответ, но я думаю, что он не отвечает на вопрос полностью. О каких аспектах проекта подумал бы опытный статистик, если бы они были на моем месте, ища вопрос + данные, которые хорошо подходят для линейной регрессии. остается без ответа.
Dawny33

@ Dawny33 Я определенно собираюсь добавить еще кое-что позже - кое-что появилось, когда я печатал то, что мешало мне написать полный ответ, который я первоначально хотел; У меня было время только закончить предложение, на котором я был, и теперь, возможно, не вернусь к нему в течение дня или двух. На самом деле я даже не успел исправить все опечатки в нем. (В то же время не стесняйтесь публиковать ответ.) С другой стороны, указание на то, что предпосылка вопроса ошибочна, может привести к тому, что ФП захочет задавать вещи, отличные от первоначальных (часто это происходит, когда центральное помещение не работает)
Glen_b

Например, я ожидаю, что может возникнуть один новый вопрос: «У вас есть пример?».
Glen_b

@Glen_b спасибо. «Линейный» относится к модели, являющейся линейной по параметрам . Извините, если я неправильно написал, я не хотел подразумевать иное. Ключевое слово было функциональным .
Спекулянты

@Glen_b они могут предложить вам рассмотреть различные предположения регрессии . Согласился еще раз. Я не был явно об этом, но мой вопрос больше о предметной области. Мне интересно, что бы искал опытный статистик в рассматриваемой системе для анализа LR, поэтому мое наивное предложение о наличии регрессоров, которые линейно и функционально связаны с ответом и чья одновременная связь с ответом является аддитивным.
Спекулянты

4

YYYYYX) Что ж. За многолетний опыт вы увидите, что некоторые переменные, такие как артериальное давление, имеют тенденцию вести себя хорошо в линейной модели, а другие (например, измерения химического состава крови) - нет.

YY


Спасибо за указание на то, как хорошо себя вести. Я думал о преобразованиях регрессоров, но не о переменной ответа. Тем не менее, теперь я вижу, как последние могут быть использованы для изменения распределения остатков. Спасибо за заполнение некоторых картинок. Очень полезный пост.
Спекулянты

3

@Glen_b дал очень хороший ответ, но, как уже отмечалось, не дошел до конца.

Итак, что касается вашего последнего вопроса:

Опытный статистик, я думаю, не стал бы задавать этот вопрос. Как отмечает Глен, проблема диктует использование инструментов, а не наоборот.

Если бы я пытался изучить технику, такую ​​как линейная регрессия, я бы использовал уже проработанные примеры - но те, которые имели реальные данные, а не составляли данные, предназначенные для упрощения работы. Книга, такая как « Моделирование регрессии на примере», может служить руководством.

Тем не менее, одним из первых шагов в рассмотрении проблемы регрессии является решение о целесообразности линейной регрессии.


Опытный статистик, я думаю, не стал бы задавать этот вопрос. да, именно поэтому я квалифицировал свой Q с "в моих туфлях". Большое спасибо за рекомендацию книги. Я разыщу копию. Множество примеров поможет, по крайней мере, как половина истории, а контрпримеры - другая половина.
Спекулянты

Аааа, цитата! со страницы 2 четвертого издания: мы предлагаем читателям подумать над вопросами (в своих областях работы, исследований или интересов), которые можно решить с помощью регрессионного анализа.
Спекулянты

0

Многие ответы касались допущений, которые должны быть соблюдены: линейность остатков, однородность дисперсии по всему диапазону предиктора, отсутствие экстремальных значений, которые могли бы повлиять на линию регрессии, и независимые наблюдения. Остаточные графики довольно легко создать с помощью большинства программ регрессии, а некоторые пакеты предоставляют некоторые автоматически (SAS).

Один человек говорил о трансформации у. Это обычная практика в некоторых областях, но это практика, которая приводит к предвзятым и, возможно, непонятным результатам. Смещение проявляется при попытке обратного преобразования результатов в исходную метрику. Лучше перейти к другому типу регрессии, которая имеет остаточную модель, которая соответствует предположениям распределения остатка. См. Главу 3 « Введение в категориальный анализ данных» Агрести, где он вводит понятие связей. В ряде учебников по регрессии также представлена ​​обобщенная линейная модель.


Я не разделяю пессимизм в отношении трансформации. Ведь оригинальное преобразование совершенно произвольно. Если вы преобразуете и получаете невязки с симметричным распределением, обратное преобразование прогнозируемых значений является прогнозируемой медианой в исходном масштабе. Предсказанные медианы весьма полезны. Если вы хотите получить прогнозируемые средние значения по исходной шкале, вы можете использовать оценщик смазывания.
Фрэнк Харрелл
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.