Я немного сбит с толку, если независимая переменная (также называемая предиктором или признаком) в статистической модели, например в линейной регрессии , является случайной величиной?Y = β 0 + β 1 X
Я немного сбит с толку, если независимая переменная (также называемая предиктором или признаком) в статистической модели, например в линейной регрессии , является случайной величиной?Y = β 0 + β 1 X
Ответы:
Есть две общие формулировки линейной регрессии. Чтобы сосредоточиться на понятиях, я их несколько абстрагирую. Математическое описание немного сложнее английского описания, поэтому давайте начнем с последнего:
Линейная регрессия - это модель, в которой отклик предполагается случайным с распределением, определяемым регрессорами через линейную карту и, возможно, другими параметрами .
В большинстве случаев множество возможных распределений представляет собой семейство местоположений с параметрами и а дает параметр . Архетипическим примером является обычная регрессия, в которой набор распределений является нормальным семейством а является линейной функцией регрессоров.
Поскольку я еще не описал это математически, остается открытым вопрос, к каким видам математических объектов относятся , , и - и я считаю, что это основная проблема в этой теме. Хотя можно сделать различные (эквивалентные) варианты, большинство из них будут эквивалентны или являются особыми случаями следующего описания.
Исправлены регрессоры. В регрессорах представлены в виде вещественных векторов . Реакция является случайной величиной (где наделен полем сигмы и вероятностью). Модель является функцией (или, если угодно, набор функций параметризованного ; ). является конечномерным топологическим (обычно вторым дифференцируемым) подмногообразием (или подмногообразием с границей) размерности пространства вероятностных распределений. обычно считается непрерывным (или достаточно дифференцируемым). , являются "мешающими параметрами." Предполагается, что распределение равно для некоторого неизвестного двойственного вектора («коэффициенты регрессии») и неизвестного , Мы можем написать это
Случайные регрессоры. Регрессоры и ответа являются мерный вектор-случайная величина . Модель является объектом того же типа, что и раньше, но теперь она дает условную вероятность
Математическое описание бесполезно без какого-либо предписания, рассказывающего, как оно предназначено для применения к данным. В случае фиксированного регрессора мы понимаем, что определено экспериментатором. Таким образом, это может помочь рассмотреть как произведение наделенное сигма-алгеброй произведений. Экспериментатор определяет а природа определяет (некоторое неизвестное, абстрактное) . В случае случайного регрессора природа определяет , компоненту случайной величины определяет (что «наблюдается»), и теперь мы имеем упорядоченную пару точно так же, как в случае фиксированного регрессора.
Архетипический пример множественной линейной регрессии (которую я выражу, используя стандартную запись для объектов, а не эту более общую), состоит в том, что
Когда - какой - либо образом whatsoever-- оцениваются как р и сг как сг , значение & beta ; ( х ) является прогнозируемым значением из Y , связанное с й --whether х управляются экспериментатором (случай 1 ) или только наблюдается (случай 2). Если мы либо установим значение (случай 1), либо увидим реализацию (случай 2) x из X , то ответ Y, связанный с этим X, является случайной величиной, распределение которой равно N ( , что неизвестнонооцениваетсякак .
Прежде всего, @whuber дал отличный ответ. Я расскажу об этом иначе, может быть, проще в некотором смысле, также со ссылкой на текст.
может быть случайным или фиксированным в формулировке регрессии. Это зависит от вашей проблемы. Для так называемых наблюдательных исследований оно должно быть случайным, а для экспериментов обычно фиксированным.
Пример первый Я изучаю влияние воздействия электронного излучения на твердость металлической детали. Итак, я беру несколько образцов металлической детали и подвергаю воздействию различных уровней радиации. Мой уровень экспозиции - X, и он фиксированный , потому что я установил уровни, которые я выбрал. Я полностью контролирую условия эксперимента или, по крайней мере, пытаюсь. Я могу сделать то же самое с другими параметрами, такими как температура и влажность.
Пример второй. Вы изучаете влияние экономики на частоту мошенничества в приложениях для кредитных карт. Итак, вы регрессируете мошенничество рассчитывает на ВВП. Вы не контролируете ВВП, вы не можете установить желаемый уровень. Более того, вы, вероятно, хотите взглянуть на многовариантные регрессии, поэтому у вас есть другие переменные, такие как безработица, и теперь у вас есть комбинация значений в X, которую вы наблюдаете , но не контролируете. В этом случае X является случайным .
Пример третий. Вы изучаете эффективность нового пестицида в полевых условиях, то есть не в лабораторных условиях, а на реальной экспериментальной ферме. В этом случае вы можете что-то контролировать, например, вы можете контролировать количество пестицидов, чтобы положить. Однако вы не контролируете все, например, погоду или почвенные условия. Хорошо, вы можете контролировать почву в некоторой степени, но не полностью. Это промежуточный случай, когда некоторые условия соблюдаются, а некоторые условия контролируются . Существует целая область исследований, называемая экспериментальным дизайном, которая действительно сфокусирована на третьем случае, где сельскохозяйственные исследования являются одним из самых больших его применений.
Здесь идет математическая часть ответа. Существует ряд предположений, которые обычно представлены при изучении линейной регрессии, называемых условиями Гаусса-Маркова. Они очень теоретические, и никто не потрудится доказать, что они верны в любой практической ситуации. Тем не менее, они очень полезны для понимания ограничений обычного метода наименьших квадратов (OLS).
Таким образом, набор предположений различен для случайного и фиксированного X, что примерно соответствует наблюдательным и экспериментальным исследованиям. Грубо говоря, потому что, как я показал в третьем примере, иногда мы действительно находимся между крайностями. Я нашел, что раздел теоремы Гаусса-Маркова в «Энциклопедии дизайна исследований» Салкинда - хорошее место для начала, он доступен в Google Книгах.
по сравнению с теми же предположениями в случайном дизайне:
Как вы можете видеть, разница заключается в том, чтобы предположить матрицу дизайна для случайного проекта. Кондиционирование делает эти более сильные предположения. Например, мы не просто говорим, как в фиксированном дизайне, что ошибки имеют нулевое среднее значение; в случайном дизайне мы также говорим, что они не зависят от X, ковариат.
В статистике случайной величиной является величина, которая каким-то образом изменяется случайным образом. Вы можете найти хорошее обсуждение в этой отличной ветке резюме: что означает «случайная величина»?
In a regression model, the predictor variables (X-variables, explanatory variables, covariates, etc.) are assumed to be fixed and known. They are not assumed to be random. All of the randomness in the model is assumed to be in the error term. Consider a simple linear regression model as standardly formulated:
Not sure if I understand the question, but if you're just asking, "must an independent variable always be a random variable", then the answer is no.
An independent variable is a variable which is hypothesised to be correlated with the dependent variable. You then test whether this is the case through modelling (presumably regression analysis).
There are a lot of complications and "ifs, buts and maybes" here, so I would suggest getting a copy of a basic econometrics or statistics book covering regression analysis and reading it thoroughly, or else getting the class notes from a basic statistics/econometrics course online if possible.