Как осмыслить ошибку в регрессионной модели?

11

Я посещаю занятия по анализу данных, и некоторые из моих укоренившихся идей потрясены. А именно, идея о том, что ошибка (эпсилон), как и любой другой вид дисперсии, применима только (как я думал) к группе (выборке или целому населению). Теперь нас учат, что одним из допущений регрессии является то, что дисперсия «одинакова для всех людей». Это как-то шокирует меня. Я всегда думал, что именно дисперсия Y по всем значениям X считается постоянной.

Я поговорил с профессором, который сказал мне, что когда мы делаем регрессию, мы предполагаем, что наша модель верна. И я думаю, что это сложная часть. Для меня термин «ошибка» (epsilon) всегда означал что-то вроде «каких-либо элементов, которые мы не знаем и которые могут повлиять на нашу переменную результата, плюс некоторая ошибка измерения». В том, как преподается класс, нет такой вещи, как «другие вещи»; наша модель считается верной и полной. Это означает, что все остаточные отклонения следует рассматривать как произведение ошибки измерения (таким образом, можно ожидать, что измерение отдельного человека в 20 раз приведет к той же дисперсии, что и измерение 20 человек за один раз).

Я чувствую, что где-то что-то не так, я хотел бы получить некоторое экспертное мнение по этому вопросу ... Есть ли место для интерпретации того, что такое термин ошибки, концептуально говоря?

— Доминик Комтуа
источник

3

Возможно, он имел в виду, что, даже если модель верна, в ответах все еще есть случайные изменения - это отражается в дисперсии ошибок - это можно, например, отнести к несовершенному измерительному устройству. Другие иногда концептуализируют дисперсию ошибок как из-за отсутствующих предикторов (не обязательно ошибок в форме модели), подразумевая, что если бы были измерены все возможные предикторы, дисперсия ошибок была бы 0. Это не противоречит первому - ошибкам в измерении можно считать «отсутствующим предиктором».

— Макрос

Я думаю, что первое, что всегда трудно понять, это то, что «ошибка» может означать разные вещи в этом случае. «Ошибка» может относиться к разнице между подобранными значениями, которые мы получаем из нашей модели, и наблюдаемыми значениями (расхождение может быть связано, например, с довольно скупой моделью). «Ошибка» также может означать разницу между наблюдаемыми значениями и истинными значениями (расхождение может быть связано, скажем, с устройством, которое вы используете для измерения округления значений до ближайшего целого / десятого знака после запятой / и т. Д.). [Первый тип - это то, где вы услышите такие термины, как «невязка / остаточная дисперсия».]

@Macro Да, это кажется мне естественным способом думать об ошибке. Однако я пытаюсь понять, почему профессор настаивал на более строгом его определении (думая, что это применимо к каждому человеку, даже если мы знаем, что на самом деле это не так).

— Доминик Комтуа

@MikeWierzbicki Верно. И если я правильно понимаю, все это смешано в «строгой» точке зрения. Это означает, что вся разница между наблюдаемыми и прогнозируемыми значениями происходит из-за ошибки измерения, поскольку наша модель «должна быть верной».

— Доминик Комтуа

2

Если есть аспекты отдельных лиц, которые влияют на результирующие значения y, то либо есть какой-то способ достичь этих аспектов (в этом случае они должны быть частью предиктора x), либо нет никакого способа когда-либо достичь этого Информация.

Если нет никакой возможности получить эту информацию и нет возможности повторно измерить значения y для отдельных лиц, тогда это действительно не имеет значения. Если вы можете измерять y несколько раз, и если ваш набор данных фактически содержит повторные измерения для некоторых людей, то у вас есть потенциальная проблема, поскольку статистическая теория предполагает независимость от ошибок / остатков измерений.

Например, предположим, что вы пытаетесь подобрать модель формы

$y=\beta_0+\beta_1 x$

и что для каждого человека,

$yind=100+10x+z$

где z зависит от индивидуума и обычно распределяется со средним 0 и стандартным отклонением 10. Для каждого повторного измерения индивидуума,

$ymeas=100+10x+z+e$

$e$

Вы можете попытаться смоделировать это как

$y=\beta_0+\beta_1 x+\epsilon$

$\epsilon$

$\sigma=\sqrt{10^2+0.1^2}=\sqrt{100.01}$

Пока у вас есть только одно измерение для каждого человека, это было бы хорошо. Однако, если у вас есть несколько измерений для одного человека, то ваши остатки больше не будут независимыми!

Например, если у вас есть один человек с z = 15 (1,5 стандартных отклонения, что не так уж и необоснованно), и сто повторных измерений этого человека, то используйте $\beta_0=100$ $\beta_1=10$ $\chi^2$

— Брайан Борхерс
источник

Я старался избегать использования пугающего термина «многоуровневое моделирование» в моем ответе, но вы должны знать, что в некоторых случаях это дает способ справиться с подобной ситуацией.

— Брайан Борхерс

1

Я думаю, что «ошибка» лучше всего описать как «часть наблюдений, которая непредсказуема, учитывая нашу текущую информацию». Попытка думать с точки зрения совокупности по сравнению с выборкой приводит к концептуальным проблемам (в любом случае, это хорошо для меня), так же как и к ошибкам, считающимся «чисто случайными» из некоторого распределения. мышление с точки зрения предсказания и «предсказуемости» имеет для меня гораздо больше смысла.

$p(e_{1},\dots,e_{n})$ $E(\frac{1}{n}\sum_{i=1}^{n}e_{i}^2)=\sigma^2$ $\sigma^2$ $\sigma$

$n$

— probabilityislogic
источник

σ^{2}

$\sigma^2$

p (e_{1}, \dots, e_{n}) \propto 1

$p(e_{1},\dots,e_{n})\propto 1$

И близко я имею в виду дивергенции кл минимизируется

— probabilityislogic

Дилемма не между выборкой и населением. Речь идет о том, чтобы думать об ошибке, применимой к индивидуумам против выборки / популяции.

— Доминик Комтуа

1

Вот очень полезная ссылка для объяснения простой линейной регрессии: http://www.dangoldstein.com/dsn/archives/2006/03/every_wonder_ho.html может быть, это поможет понять концепцию «ошибки».

FD

— Florian
источник

Это очень хороший апплет! Спасибо за ссылку на это. Это напоминает мне довольно много иллюстраций, которые я подготовил для другого вопроса , где ваш ответ мог бы иметь большее значение.

— whuber

1

Я не согласен с формулировкой профессора об этом. Как вы говорите, идея о том, что дисперсия одинакова для каждого индивидуума, подразумевает, что термин ошибки представляет только ошибку измерения. Обычно это не так, как строится базовая модель множественной регрессии. Также, как вы говорите, дисперсия определяется для группы (будь то группа отдельных субъектов или группа измерений). Это не относится на индивидуальном уровне, если у вас нет повторных мер.

Модель должна быть полной, так как термин ошибки не должен содержать влияния каких-либо переменных, которые связаны с предикторами. Предполагается, что термин ошибки не зависит от предикторов. Если какая-либо коррелированная переменная опущена, вы получите смещенные коэффициенты (это называется опущенной переменной смещения ).

— Энн З.
источник

Я не совсем понимаю этот ответ. кажется, что он распознает разницу между ошибкой из-за отсутствия соответствия и случайной ошибки, но последний риторический вопрос кажется сбивающим с толку. С чисто формальной точки зрения, практически любой вывод, сделанный в отношении регрессионной модели, зависит от очень явных предположений о структуре шума.

— кардинал

1

Я хочу сказать, что во многих случаях целью регрессионного моделирования является выяснение того, что происходит, даже если мы не знаем всех причин того или иного результата. Но поскольку это кажется неясным, я сниму этот вопрос.

— Энн З.

Спасибо. Дело в вашем комментарии хорошо. Предыдущий вопрос, который вы задали, можно было расценить как вопрос о том, на чем основывается теория регрессии. :)

— кардинал

Я согласен с вами в вашем несогласии (отсюда и мой вопрос!), И пропущенная переменная предвзятость весьма актуальна для данной проблемы. Спасибо.

— Доминик Комтуа