Я студент-экономист с некоторым опытом работы с эконометрикой и R. Я хотел бы знать, есть ли когда-нибудь ситуация, когда мы должны включить переменную в регрессию, несмотря на то, что она не является статистически значимой?
Я студент-экономист с некоторым опытом работы с эконометрикой и R. Я хотел бы знать, есть ли когда-нибудь ситуация, когда мы должны включить переменную в регрессию, несмотря на то, что она не является статистически значимой?
Ответы:
Да!
То, что коэффициент статистически неотличим от нуля, не означает, что коэффициент фактически равен нулю, что коэффициент не имеет значения. То, что эффект не проходит произвольную границу для статистической значимости, не означает, что не следует пытаться контролировать его.
Вообще говоря, проблема под рукой и ваш исследовательский дизайн должны определять, что включать в качестве регрессоров.
И не принимайте это как исчерпывающий список. Это не трудно придумать тонны больше ...
Ситуация, в которой это часто происходит, представляет собой регресс с фиксированными эффектами .
Допустим, у вас есть данные панели и вы хотите оценить в модели:
Оценка этой модели с обычными наименьшими квадратами, где рассматриваются как фиксированные эффекты, эквивалентна выполнению обычных наименьших квадратов с переменной показателя для каждого отдельного i .
В любом случае, дело в том, что переменные (то есть коэффициенты на переменных индикатора) часто плохо оцениваются. Любой человек , фиксированный эффект у я часто статистически незначимым. Но вы все равно включаете все переменные индикатора в регрессию, если учитываете фиксированные эффекты.
(Также обратите внимание, что большинство пакетов статистики даже не дают стандартных ошибок для отдельных фиксированных эффектов, когда вы используете встроенные методы. На самом деле вас не волнует значение отдельных фиксированных эффектов. Возможно, вам не безразлична их совокупная значимость). .)
Если вы подгоняете полином й степени к некоторой кривой, вы почти всегда включаете полиномиальные члены более низкого порядка.
Например, если бы вы подходили к полиному 2-го порядка, вы бы запустили:
Обычно было бы довольно странно заставить и вместо этого запустить y i = b 0 + b 2 x 2 i + ϵ i
но студенты ньютоновской механики смогут представить себе исключения.
Допустим, вы оценивали модель AR (p), вы также включили бы члены более низкого порядка. Например, для AR (2) вы должны выполнить:
Вы хотите включить правые переменные, когда есть веские теоретические причины для этого.
И, как обсуждают другие ответы здесь и в StackExchange, пошаговый выбор переменных может создать многочисленные статистические проблемы.
Также важно различать:
В последнем случае сложно утверждать, что коэффициент не имеет значения. Это может быть просто плохо измерено.
Да это так. Любая переменная, которая могла бы коррелировать с вашей переменной ответа значимым образом, даже на статистически незначимом уровне, могла бы нарушить вашу регрессию, если она не включена. Это известно как занижение и приводит к тому, что оценки параметров не так точны, как могли бы быть.
https://onlinecourses.science.psu.edu/stat501/node/328
Из вышесказанного:
Модель регрессии не указана (результат 2), если в уравнении регрессии отсутствует одна или несколько важных переменных-предикторов. Эта ситуация, возможно, является наихудшим сценарием, потому что недостаточно указанная модель дает смещенные коэффициенты регрессии и смещенные прогнозы ответа. То есть при использовании модели мы бы последовательно недооценивали или переоценивали наклоны населения и средние значения населения. Чтобы усугубить и без того плохие дела, среднеквадратичная ошибка MSE имеет тенденцию переоценивать σ², тем самым давая более широкие доверительные интервалы, чем следовало бы.
Обычно вы не включаете и не исключаете переменные для линейной регрессии из-за их значимости. Вы включаете их, потому что предполагаете, что выбранные переменные являются (хорошими) предикторами критериев регрессии. Другими словами, выбор предиктора основан на теории.
Статистическая незначимость в линейной регрессии может означать две вещи (из которых я знаю):
Действительная причина исключения незначительных предикторов заключается в том, что вы ищете наименьшее подмножество предикторов, которые объясняют дисперсию критериев или большую ее часть. Если вы нашли это, проверьте свою теорию.
В эконометрике это происходит слева и справа. Например, если вы используете ежеквартальные манекены сезонности Q2, Q3 и Q4, часто случается, что как группа они значимы, но некоторые из них не значимы по отдельности. В этом случае вы обычно держите их всех.
ОБНОВЛЕНИЕ: Другой распространенный пример - прогнозирование. Эконометрику обычно преподают с точки зрения логического вывода на экономических факультетах. В перспективе логического вывода большое внимание уделяется p-значениям и значимости, потому что вы пытаетесь понять, что вызывает то, что и так далее. В прогнозировании не так много внимания уделяется этому, потому что все, что вас волнует, - насколько хорошо модель может прогнозировать интересующую переменную.
Это похоже на приложения машинного обучения, кстати, которые в последнее время пробиваются в экономику. У вас может быть модель со всеми значимыми переменными, которая плохо прогнозируется. В ML это часто ассоциируется с так называемым «переоснащением». Очевидно, что такая модель мало используется в прогнозировании.
Вы задаете два разных вопроса:
Редактировать: это относится к исходному сообщению, но может не соответствовать действительности после правок.
Что касается первого квартала, я думаю, что он слишком широк. Есть много возможных ответов, некоторые уже предоставлены. Еще один пример - построение моделей для прогнозирования (см. Источник, указанный ниже, для объяснения).
Что касается Q2, статистическая значимость не является надежным критерием для построения модели. Роб Дж. Хиндман пишет в своем блоге «Статистические тесты для выбора переменных» :
Статистическая значимость обычно не является хорошей основой для определения того, должна ли переменная быть включена в модель, несмотря на то, что многие люди, которые должны знать, лучше используют их именно для этой цели. <...> Статистические тесты были разработаны для проверки гипотез, а не для выбора переменных.
Также обратите внимание, что вы часто можете найти некоторые переменные, которые являются статистически значимыми чисто случайно (шанс контролируется вашим выбором уровня значимости). Наблюдения за тем, что переменная является статистически значимой, недостаточно для заключения о том, что переменная принадлежит модели.
Я добавлю еще одно «да». Меня всегда учили - и я пытался передать это - что первостепенное значение при выборе ковариации - это знание предметной области, а не статистика. Например, в биостатистике, если я моделирую некоторые результаты в отношении здоровья отдельных людей, то независимо от того, что говорит регрессия, вам понадобятся чертовски хорошие аргументы, чтобы я не включал возраст, расу и пол в модель.
Это также зависит от цели вашей модели. Если цель состоит в том, чтобы лучше понять, какие факторы больше всего связаны с вашим результатом, то построение скупой модели имеет некоторые достоинства. Если вы заботитесь о предсказании, а не о понимании, то устранение ковариат может быть менее важным.
(Наконец, если вы планируете использовать статистику для выбора переменных, посмотрите, что Фрэнк Харрелл должен сказать по этому вопросу - http://www.stata.com/support/faqs/statistics/stepwise-regression-problems/ и его книга « Стратегии регрессионного моделирования . Вкратце, к тому времени, когда вы использовали пошаговые или подобные статистически обоснованные стратегии для выбора лучших предикторов, любые тесты« эти хорошие предикторы? »ужасно предвзяты - конечно, они» Вы хорошие предсказатели, вы выбрали их на этой основе, и поэтому значения p для этих предсказателей ложно низкие.)
Единственное, что действительно говорит результат «статистической незначимости», это то, что на выбранном уровне ошибки типа I мы даже не можем сказать, является ли влияние регрессора на зависимую переменную положительным или отрицательным (см. Этот пост).
Таким образом, если мы сохраняем этот регрессор, любое обсуждение его собственного влияния на зависимую переменную не имеет статистических данных, подтверждающих это.
Но эта ошибка оценки не говорит о том, что регрессор не принадлежит структурному отношению, а лишь говорит о том, что с конкретным набором данных мы не смогли с некоторой уверенностью определить знак его коэффициента.
Таким образом, в принципе, если существуют теоретические аргументы в пользу его присутствия, регрессор следует сохранить.
Другие ответы здесь предоставили конкретные модели / ситуации, для которых такие регрессоры сохраняются в спецификации, например, ответ с упоминанием модели данных панели с фиксированными эффектами.
Вы можете включить переменную, представляющую особый интерес, если она является предметом исследования, даже если она не является статистически значимой. Кроме того, в биостатистике клиническая значимость часто отличается от статистической значимости.