У меня наивная мысль, что линейная регрессия подходит только тогда, когда подозревают, что существуют линейные функциональные отношения между объясняющими переменными и переменной отклика. Но не так много реальных приложений, казалось бы, соответствуют этому критерию.
Это не правильное понимание того, что является «линейным» в «линейной регрессии».
Предполагается, что это не отношения между и x , которые имеют линейную форму (хотя все элементарные примеры могут ввести вас в заблуждение).YИкс
«Линейный» относится к модели, являющейся линейной по параметрам, и нелинейные отношения между и некоторым x, безусловно, могут быть смоделированы таким образом.YИкс
Там пример с одним предсказателем здесь , но криволинейные модели чаще установлены в качестве множественной регрессии, где несколько функций предсказателя (х переменного, независимые переменного) могут иметь место в регрессии, и это позволяет большую гибкость. Это включает в себя полиномиальную регрессию, например. Смотрите некоторые обсуждения и примеры здесь .
Однако, если мы учтем тот факт, что предикторы могут быть преобразованы для соответствия изогнутым отношениям, линейность параметров также соответствует линейности в этих преобразованных предикторах.
Кроме того, многие проблемы близки к линейным (по крайней мере, в диапазоне рассматриваемых значений) или настолько шумны, что любая легкая кривизна не заметна, и может подойти множество простых моделей для возрастающей или убывающей взаимосвязи: и в этом случае линейный выбор может быть как адекватным, так и самым простым для подбора и понимания.
О каких аспектах проекта подумал бы опытный статистик, если бы они были на моем месте, ища вопрос + данные, которые хорошо подходят для линейной регрессии.
Единственный раз, когда я мог бы найти проблему, к которой можно применить регрессию, - это когда я пытаюсь найти хороший пример для обучения. Когда я на самом деле в состоянии выполнять статистическую работу (а не объяснять или преподавать ее), я выбираю методологию, соответствующую интересующему вопросу (и характеристикам данных), а не выбираю данные, подходящие для метода.
Представьте себе плотника, например. Плотник не поднимает спицы и говорит: «На чем я могу это использовать ?». Скорее, у плотника есть проблема, которую нужно решить, и при рассмотрении характеристик проблемы («что я пытаюсь сделать?» И «какую древесину я использую?» И т. Д.) Могут быть использованы конкретные инструменты более актуальным, чем другие. Иногда инструменты, которые доступны , могут ограничивать или направлять выбор (если вы не имеете в скобель, вы , возможно , придется делать с чем - то другим ... или вы можете просто пойти купить скобель).
Однако, давайте предположим , что у вас есть карманный статистик помочь вам , и вы пытаетесь найти проблему подходит для линейной регрессии. Затем они могут предложить вам рассмотреть различные предположения регрессии и когда они имеют значение. Я упомяну несколько вещей.
Е( у| грамм( х ) )грамм( х )граммИкс*= хЕ( у| Икс*) = a + b x ∗
Если вы можете использовать множественную регрессию, даже если это не является особой проблемой, поскольку можно использовать (например) сплайны кубической регрессии для соответствия довольно общим отношениям.
Я бы посоветовал вам избегать данных с течением времени, если вы не понимаете проблемы с ложной регрессией; придерживаться проблем сечения.
ИксИкс
Икс
Если вы интересуетесь проверкой гипотез, доверительными интервалами или интервалами прогнозирования, то могут иметь значение более обычные регрессионные допущения (но есть альтернативы, которые не делают этих допущений, а в некоторых случаях, по крайней мере, некоторые из допущений могут не быть особенно важным в любом случае).
Так что, по крайней мере, одна вещь, о которой нужно знать, это то, что делается при выводе логических процедур, которые вы используете, и насколько они важны для вашей конкретной проблемы (например, при выполнении обычных проверок гипотез, нормальность - это предположение, но в больших выборках это предположение может быть не важным, с другой стороны, допущение о постоянной дисперсии может быть более серьезной проблемой).
Есть ряд постов, в которых обсуждаются предположения о регрессии, а также некоторые посты, в которых обсуждается, когда их вообще нужно делать, сколько они могут иметь значение и даже в каком порядке их рассматривать.