Поэтому, когда я предполагаю, что члены ошибки обычно распределяются в виде линейной регрессии, что это означает для переменной отклика, ?
Поэтому, когда я предполагаю, что члены ошибки обычно распределяются в виде линейной регрессии, что это означает для переменной отклика, ?
Ответы:
Может быть, я ухожу, но я думаю, что нас должно интересовать , именно так я читаю ОП. В самом простом случае линейной регрессии, если ваша модель y = X β + ϵ, то единственным стохастическим компонентом в вашей модели является член ошибки. Как таковой, он определяет выборочное распределение y . Если ϵ ∼ N ( 0 , σ 2 I ), то y | X , β ∼ N ( X β , . Однако то, что говорит @Aniko, верно и для f ( y ) (незначительно над X , β ). Таким образом, вопрос стоит немного расплывчато.
Короткий ответ заключается в том, что вы не можете сделать вывод о распределении , потому что это зависит от распределения x , а также от силы и формы отношений. Более формально, у у вас будет «смесь нормалей», которая на практике может быть чем угодно.
Вот два крайних примера, иллюстрирующих это:
Фактически, поскольку любое распределение может быть сколь угодно хорошо аппроксимировано смесью нормалей, вы можете получить любое распределение для .
Мы придумали термин ошибки, наложив фиктивную модель на реальные данные; Распределение ошибки не влияет на распределение ответа.
Мы часто предполагаем, что ошибка распределена нормально, и, таким образом, пытаемся построить модель так, чтобы наши расчетные остатки были нормально распределены. Это может быть сложно для некоторых распределений . В этих случаях, я полагаю, вы могли бы сказать, что распределение ответа влияет на срок ошибки.
Если вы записали ответ в виде где m - это «модель» (прогноз для y ), а e - «ошибки», то это можно переставить так, чтобы указать y - m = e . Таким образом, назначение распределения для ошибок - это то же самое, что указание на то, что ваша модель неполна. Другими словами, это показывает, в какой степени вы не знаете, почему наблюдаемый отклик был значением, которым он был на самом деле, а не тем, что предсказывала модель. Если бы вы знали, что ваша модель идеальна, вы бы присваивали ошибкам распределение вероятностей со всей его массой на нуле. Назначение N (
В некотором смысле распределение ошибок более тесно связано с моделью, чем с ответом. Это видно из неидентифицируемости вышеприведенного уравнения, поскольку если и e неизвестны, то добавление произвольного вектора к m и вычитание его из e приводит к тому же значению y , y = m + e = ( m + b ) + ( e - b ) = m ′ + e ′, Присвоение распределения ошибок и модельного уравнения в основном говорит, какие произвольные векторы более вероятны, чем другие.