Как распределение термина ошибки влияет на распределение ответа?


14

Поэтому, когда я предполагаю, что члены ошибки обычно распределяются в виде линейной регрессии, что это означает для переменной отклика, y ?

Ответы:


7

Может быть, я ухожу, но я думаю, что нас должно интересовать , именно так я читаю ОП. В самом простом случае линейной регрессии, если ваша модель y = X β + ϵ, то единственным стохастическим компонентом в вашей модели является член ошибки. Как таковой, он определяет выборочное распределение y . Если ϵ N ( 0 , σ 2 I ), то y | X , β N ( X β ,f(y|β,X)y=Xβ+ϵyϵN(0,σ2I) . Однако то, что говорит @Aniko, верно и для f ( y ) (незначительно над X , β ). Таким образом, вопрос стоит немного расплывчато.y|X,βN(Xβ,σ2I)f(y)X,β


Мне нравятся все комментарии! И все они, похоже, правы. Но я просто искал самый простой ответ :) Что происходит, когда вы предполагаете, что ошибочный термин распределен нормально. То, что это происходит сейчас очень часто, на самом деле становится ясно из других ответов! Большое спасибо!
МаркДоллар

17

Короткий ответ заключается в том, что вы не можете сделать вывод о распределении , потому что это зависит от распределения x , а также от силы и формы отношений. Более формально, у у вас будет «смесь нормалей», которая на практике может быть чем угодно.yxY

Вот два крайних примера, иллюстрирующих это:

  1. Предположим, что существует только два возможных значения , 0 an 1 и y = 10 x + N ( 0 , 1 ) . Тогда у будет иметь строго бимодальное распределение с неровностями в 0 и 10.xy=10x+N(0,1)y
  2. Теперь предположим, что такое же соотношение, но пусть будет равномерно распределен в интервале 0-1 с большим количеством значений. Тогда у будет почти равномерно распределен по интервалу 0-10 (с некоторыми полунормальными хвостами по краям).xy

Фактически, поскольку любое распределение может быть сколь угодно хорошо аппроксимировано смесью нормалей, вы можете получить любое распределение для .y


8
+1 По поводу последнего утверждения: однажды я тоже ошибся, подумав об этом. С математической точки зрения вы правы, но на практике почти невозможно приблизить недифференцируемый всплеск с нормалями (такими как J- или U-образные распределения): нормали просто слишком плоские на своих пиках, чтобы уловить плотность в шипах. Вам нужно слишком много компонентов. Нормалы хороши для аппроксимации распределений, у которых pdf очень гладкие.
whuber

1
@whuber Согласен. Я бы не предложил использовать приближение нормальной смеси для любого распределения на практике, я просто пытался привести крайний контрпример.
Анико

5

Мы придумали термин ошибки, наложив фиктивную модель на реальные данные; Распределение ошибки не влияет на распределение ответа.

Мы часто предполагаем, что ошибка распределена нормально, и, таким образом, пытаемся построить модель так, чтобы наши расчетные остатки были нормально распределены. Это может быть сложно для некоторых распределений . В этих случаях, я полагаю, вы могли бы сказать, что распределение ответа влияет на срок ошибки.y


2
«Мы часто пытаемся построить модель таким образом, что наш термин ошибка обычно распространяется» - чтобы быть точным, я думаю , что вы имеете в виду Разности . Эти оценки терминов ошибок таким же образом , что Х β является оценкой Е ( у ) = X р . Мы бы хотели, чтобы остатки выглядели нормально, потому что это то, что мы предположили в терминах ошибок. Мы «изобретаем» термин ошибки, указывая модель, а не подгоняя ее. yXβ^Xβ^E(y)=Xβ
JMS

Я согласен с вашей точностью, JMS. +1 и я поправлю свой ответ.
Томас Левин

2

Если вы записали ответ в виде где m - это «модель» (прогноз для y ), а e - «ошибки», то это можно переставить так, чтобы указать y - m = e . Таким образом, назначение распределения для ошибок - это то же самое, что указание на то, что ваша модель неполна. Другими словами, это показывает, в какой степени вы не знаете, почему наблюдаемый отклик был значением, которым он был на самом деле, а не тем, что предсказывала модель. Если бы вы знали, что ваша модель идеальна, вы бы присваивали ошибкам распределение вероятностей со всей его массой на нуле. Назначение N (

y=m+e
myeym=e основном говорит, что ошибки малы в единицах σ . Идея состоит в том, что модельные предсказания имеют тенденцию быть «неправильными» в одинаковых количествах для разных наблюдений и «примерно правильными» по шкале σ . В отличие от этого, альтернативным назначением является C a u c h y ( 0 , γ ), которое говорит о том, что большинство ошибок являются небольшими, но некоторые ошибки довольно велики - модель имеет случайный «промах» или «шокер» в терминах прогнозирования ответа.N(0,σ2)σσCauchy(0,γ)

В некотором смысле распределение ошибок более тесно связано с моделью, чем с ответом. Это видно из неидентифицируемости вышеприведенного уравнения, поскольку если и e неизвестны, то добавление произвольного вектора к m и вычитание его из e приводит к тому же значению y , y = m + e = ( m + b ) + ( e - b ) = m + e memeyy=m+e=(m+b)+(eb)=m+e, Присвоение распределения ошибок и модельного уравнения в основном говорит, какие произвольные векторы более вероятны, чем другие.


H0:yf0H1:yf1

nyiYxiY=Xβ+ϵϵY|β,X

@JMS - думаю, я мог бы удалить первый абзац. Я не думаю, что это добавляет что-либо к моему ответу (кроме путаницы).
probislogic

одна из моих любимых вещей, чтобы добавить к моим ответам :)
JMS
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.