В линейной регрессии, почему переменная отклика должна быть непрерывной?


13

Я знаю, что в линейной регрессии переменная отклика должна быть непрерывной, но почему это так? Кажется, я не могу найти в Интернете ничего, что объясняет, почему я не могу использовать дискретные данные для переменной ответа.

Ответы:


25

Ничто не мешает вам использовать линейную регрессию на любых двух столбцах чисел, которые вам нравятся. Есть моменты, когда это может быть даже вполне разумный выбор.

Однако свойства того, что вы получаете, не обязательно будут полезны (например, не обязательно будут такими, какими вы хотели бы их видеть).

Как правило, с помощью регрессии вы пытаетесь согласовать некоторую связь между условным средним Y и предиктором - то есть сопоставить отношения некоторой формы ; возможно моделирование поведения условного математического ожидания является то , что «регресс» является . [Линейная регрессия - это когда вы принимаете одну конкретную форму для g ]E(Y|x)=g(x)g

Например, рассмотрим крайние случаи дискретности, переменную ответа, распределение которой равно либо 0, либо 1 и которая принимает значение 1 с вероятностью, которая изменяется по мере изменения некоторого предиктора ( ). То есть E ( Y | x ) = P ( Y = 1 | X = x ) .xE(Y|x)=P(Y=1|X=x)

Если вы подходите к такому типу отношений с моделью линейной регрессии, то, кроме узкого интервала, она будет предсказывать значения для , которые невозможны - либо ниже 0, либо выше 1 :Е(Y)01

0-1 данные и наименьших квадратов подходят

Действительно, также можно видеть, что, когда ожидание приближается к границам, значения должны все чаще принимать значение на этой границе, поэтому его дисперсия становится меньше, чем если бы ожидание было близко к середине - дисперсия должна уменьшиться до 0 Таким образом, обычная регрессия получает неправильные веса, занижая данные в области, где условное ожидание близко к 0 или 1. SIlilar эффекты возникают, если у вас есть переменная, ограниченная, скажем, между a и b (например, каждое наблюдение является дискретным счетчиком). из известного общего возможного количества для этого наблюдения)

Кроме того, мы обычно ожидаем, что условное среднее значение будет асимптотически приближаться к верхнему и нижнему пределам, что означает, что отношение обычно будет криволинейным, а не прямым, поэтому наша линейная регрессия, скорее всего, ошибается и в пределах диапазона данных.

Подобные проблемы возникают с данными, которые ограничены только с одной стороны (например, счетчики, у которых нет верхней границы), когда вы находитесь рядом с этой одной границей.

Это возможно (если редко) , чтобы иметь дискретные данные , которые не ограничены на обоих концах; если переменная принимает много разных значений, дискретность может иметь относительно небольшие последствия, если в описании модели среднее значение и дисперсия являются разумными.

Вот пример, что было бы вполне разумно использовать линейную регрессию на:

график, показывающий дискретный y как функцию x, где линейная регрессия имеет смысл

Даже если в любой тонкой полосе значений x есть только несколько различных значений y, которые, вероятно, будут наблюдаться (возможно, около 10 для интервалов ширины 1), ожидание может быть хорошо оценено, и даже стандартные ошибки и p- значения и доверительные интервалы будут более или менее разумными в этом конкретном случае. Интервалы прогнозирования будут иметь тенденцию работать несколько менее хорошо (потому что ненормальность будет иметь тенденцию оказывать более прямое влияние в этом случае)

-

Если вы хотите выполнить проверку гипотез или рассчитать доверительные интервалы или интервалы прогнозирования, обычные процедуры предполагают нормальность. В некоторых обстоятельствах это может иметь значение. Тем не менее, можно сделать вывод, не делая этого конкретного предположения.


Спасибо, не уверен, что понял все, что вы сказали, но я над этим поработаю.
ilovestats

3
Если у вас есть конкретные вопросы, я могу попытаться ответить на них
Glen_b

@ilovestats У меня есть степень магистра в области эконометрики, и я могу заверить вас, что этот ответ стоит понимать каждое слово. Отличный ответ, с легким переходом / хорошим основанием для введения логистической регрессии.
d8aninja

3

Я не могу комментировать, поэтому я отвечу: в обычной линейной регрессии переменная ответа не должна быть непрерывной, ваше предположение не так:

Yзнак равноβ0+β1Икс

но это:

Е[Y]знак равноβ0+β1Икс,

Обычная линейная регрессия происходит из минимизации квадратов невязок, что считается методом, подходящим для непрерывных и дискретных переменных (см. Теорему Гаусса-Маркофа). Конечно, обычно используемые доверительные интервалы или интервалы прогнозирования и проверки гипотез основаны на предположении о нормальном распределении, как правильно указал Glen_b, а оценки параметров OLS - нет.


2

ИксИксY

Yзнак равноβ0+β1Икс+ε

εY

С другой стороны, в обобщенной линейной модели переменная отклика может быть дискретной / категориальной (логистическая регрессия). Или считать (регрессия Пуассона).


Отредактируйте по адресу mark999 и переделайте комментарии.

Линейная регрессия - это общий термин, который люди могут использовать по-разному. Ничто не мешает нам использовать его для дискретной переменной ИЛИ независимая переменная и зависимая переменная не являются линейными.

Если мы ничего не предположим и запустим линейную регрессию, мы все равно сможем получить результаты. И если результаты удовлетворяют наши потребности, то весь процесс в порядке. Однако, как сказал Glan_b

Если вы хотите выполнить проверку гипотез или рассчитать доверительные интервалы или интервалы прогнозирования, обычные процедуры предполагают нормальность.

У меня есть этот ответ, потому что я предполагаю, что OP запрашивает линейную регрессию из книги классической статистики, где у нас обычно есть это предположение, когда преподаем линейную регрессию.


Спасибо, я понял ваше объяснение. Наиболее ценится.
ilovestats

1
Можете ли вы также объяснить, почему объясняющая переменная может быть либо непрерывной, либо дискретной (как говорят многие публикации)? В своем объяснении вы говорите (и это имеет смысл), что независимая переменная x непрерывна.
ilovestats

2
Я не думаю, что этот ответ правильный. Предполагается, что переменная ответа не является детерминированной функцией объясняющей (ых) переменной (ей), и нет необходимости предполагать, что объясняющая (ые) переменная (ые) является непрерывной.
mark999

2
Результат может быть дискретным или условным, этот ответ совершенно неправильный
Repmat

@Repmat спасибо за ваш комментарий, пожалуйста, проверьте мои изменения.
Haitao Du

0

Это не так. Если модель работает, кого это волнует?

С теоретической точки зрения ответы выше верны. Однако на практике все зависит от области ваших данных и предсказательной силы вашей модели.

Один из реальных примеров - старая модель банкротства MDS. Это был один из ранних показателей риска, используемых кредиторами потребительского кредитования для прогнозирования вероятности того, что заемщик объявит о банкротстве. Эта модель использовала подробные данные из кредитного отчета заемщика и двоичный флаг 0/1 для указания банкротства в течение периода прогнозирования. Затем подали эти данные в ... да ... вы уже догадались.

Простая старая линейная регрессия

Однажды я получил возможность поговорить с одним из людей, которые создали эту модель. Я спросил его о нарушении предположений. Он объяснил, что, хотя это полностью нарушало предположения об остатках и т. Д., Ему было все равно.

Оказывается...

Эта модель линейной регрессии 0/1 (когда она стандартизирована / масштабирована до легко читаемого балла и в сочетании с соответствующим обрезанием) была полностью проверена на несоответствующих выборках данных и очень хорошо работала как дискриминатор Good / Bad для банкротства.

Модель годами использовалась в качестве 2-го кредитного рейтинга для защиты от банкротства наряду с оценкой риска FICO (которая была разработана для прогнозирования просроченной кредитоспособности на срок более 60 дней).

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.