Можно ли разложить подогнанные остатки на отклонения и отклонения после подгонки линейной модели?


9

Я хотел бы классифицировать точки данных как нуждающиеся в более сложной модели или не требующие более сложной модели. Мое текущее мышление состоит в том, чтобы подогнать все данные к простой линейной модели и наблюдать размер остатков, чтобы сделать эту классификацию. Затем я немного прочитал о влиянии смещения и дисперсии на ошибку и понял, что, если бы я мог рассчитать смещение напрямую, это могло бы быть лучшей мерой, чем работа с общей ошибкой (невязкой или стандартизированной невязкой).

Можно ли оценить смещение напрямую с помощью линейной модели? С или без тестовых данных? Поможет ли здесь перекрестная проверка?

Если нет, то можно ли использовать усредненный начальный ансамбль линейных моделей (я думаю, это называется бэггинг) для приблизительного смещения?


1
Может быть, они эквивалентны (остаточный против смещения), потому что дисперсия в константе?
Kmace

1
Не могли бы вы уточнить, что вы имеете в виду в первом утверждении вашего поста? Вы хотите классифицировать «точки данных» (отдельные наблюдения?) Как «нуждающиеся в более сложной или более сложной модели». Мне не совсем ясно, что это означает (хотя это звучит как обнаружение выброса или другая проблема типа соответствия), или как это относится к последующим вопросам об оценке смещения.
Райан Симмонс

Я имею в виду, что есть подмножество моих выборок, которые имеют другую целевую функцию . Итак, допустим, что для большинства выборок истинная целевая функция выглядит следующим образом: а для меньшинства выборок целевая функция: . Если я не допускаю условия взаимодействия в моей модели (мой набор гипотез не содержит их), то я должен уместить все данные и убедиться, что выборки с большой ошибкой, вероятно, имеют целевую функциюf 1 ( x ) = 3 x 1 + 2 x 2 f 2 ( x ) = 3 x 1 + 2 x 2 + x 1 x 2 f 2f(x)f1(x)=3x1+2x2f2(x)=3x1+2x2+x1x2f2
kmace

2
Как уже отмечал Райан, вопрос не очень четко сформулирован. Ваш комментарий указывает в направлении "пригодности". Но это невозможно перевернуть. Вы, кажется, имеете в виду предварительную концепцию, которая вводит в заблуждение. Вы можете рассчитать множество вещей, если вы объедините модель и некоторые данные и определите параметры модели. Но, учитывая, что вы всегда начинаете со статистически ограниченного набора данных, нет никакой истины, которую вы можете раскрыть, копая больше или используя больше лопат. Ни один метод, который вы примените, не принесет правды, но он может указать, насколько вы ошибаетесь.
Херувим

Ответы:


12

Как правило, вы не можете разложить ошибки (остатки) на компоненты смещения и дисперсии. Простая причина в том, что вы обычно не знаете истинную функцию. Вспомните, что и что - это неизвестная вещь, которую вы хотите оценить.F ( х )bias(f^(x))=E[f^(x)f(x)],f(x)

Как насчет начальной загрузки? Можно оценить смещение оценки с помощью начальной загрузки, но речь идет не о моделях с мешками, и я не верю, что есть способ использовать начальную загрузку для оценки смещения в потому что начальной загрузки все еще нет. основанный на некотором понятии Истины, и не может, несмотря на происхождение ее имени, создать что-то из ничего.f^(x),

Для уточнения: начальная оценка смещения в оценщике равна ^ Ь I с B= θ *() - θ ,θ^

bias^B=θ^()θ^,

с является средним вашей статистики , вычисленной на бутстраповских выборок . Этот процесс эмулирует процесс выборки из некоторого населения и вычисления вашего количества интереса. Это работает только в том случае, если в принципе можно рассчитать непосредственно из населения. Начальная оценка смещения оценивает, является ли смещение оценкой плагина - то есть, просто делает то же самое вычисление для выборки, а не для совокупности.B θθ^()B θ^

Если вы просто хотите использовать свои остатки для оценки соответствия модели, это вполне возможно. Если вы, как вы говорите в комментариях, хотите сравнить вложенные модели и f 2 ( x ) = 3 x 1 + 2 x 2 + x 1 x 2 , вы можете выполнить ANOVA для проверки значительно ли большая модель уменьшает сумму квадратов ошибок.f1(x)=3x1+2x2f2(x)=3x1+2x2+x1x2


8

Одна из ситуаций, в которой вы можете получить оценку разложения, - это если у вас есть реплицированные точки (т.е. иметь более одного ответа для различных комбинаций предикторов).

Это в основном ограничивается ситуациями, когда у вас есть контроль над независимыми переменными (например, в экспериментах) или когда все они дискретны (когда не слишком много x-комбинаций, и вы можете взять достаточно большую выборку, чтобы комбинации x-значения получить несколько баллов).

Реплицированные точки дают вам безмодельный способ оценки условного среднего. В таких ситуациях существует возможность разложения остаточной суммы квадратов на чистую ошибку и отсутствие подгонки , но у вас также есть прямые (хотя и обязательно шумные) оценки смещения для каждой комбинации значений x, для которых у вас есть несколько ответов.


Я не думаю, что это сработает. Рассмотрим случай, когда вы исключили важную объясняющую переменную из вашей модели. Если эта объясняющая переменная является ортогональной ко всем другим поясняющим переменным, я считаю, что ее эффект (или отсутствие) не может быть обнаружен с помощью этой или любой другой методологии, предложенной в других ответах.
Кагдас Озгенц

2
@Cagdas Это не работает при любых обстоятельствах; он обнаруживает смещение из неправильно определенной модели, не обязательно пропуская предикторы
Glen_b -Reinstate Monica

1

В несколько более сложной области фильтрации Калмана иногда люди проверяют невязки (наблюдаемые измерения минус прогнозируемые измерения), чтобы найти изменения модели или условия неисправности. Теоретически, если модель идеальна, а шум гауссовский, то остатки также должны быть гауссовыми с нулевым средним и соответствовать согласованной ковариационной матрице. Люди могут проверять ненулевое среднее с помощью последовательных тестов, таких как тест на коэффициент вероятности (SPRT). Ваша ситуация отличается, потому что у вас есть фиксированный пакет данных, а не постоянный поток новых данных. Но основная идея рассмотрения выборочного распределения остатков может все еще применяться.

Вы указываете, что процесс, который вы моделируете, может время от времени меняться. Затем, чтобы сделать больше с имеющимися у вас данными, вам, вероятно, потребуется определить другие факторы, вызывающие это изменение. Рассмотрим 2 варианта: (1) может быть, вам нужны локальные модели, а не одна глобальная модель, например, потому что существуют серьезные нелинейности только в некоторых регионах деятельности, или (2), возможно, процесс изменяется со временем.

Если это физическая система, и ваши выборки не взяты за большие промежутки времени, возможно, что эти изменения процесса сохраняются в течение значительных периодов времени. То есть истинные параметры модели могут время от времени изменяться и сохраняться в течение некоторого периода времени. Если ваши данные помечены временем, вы можете посмотреть на остатки во времени. Например, предположим, что вы подобрали y = Ax + b, используя все свои данные, найдя A и b. Затем вернитесь и проверьте остаточную последовательность r [k] = y [k] - Ax [k] - b, где k - это индекс, соответствующий временам в последовательном порядке. Ищите паттерны с течением времени, например, периоды, когда итоговая статистика, как || r [k] || остается выше нормы в течение некоторого времени. Последовательные тесты были бы наиболее чувствительны к обнаружению ошибок систематического смещения, например, SPRT или даже CUSUM для отдельных векторных индексов.


1

Ответ отрицательный , потому что смещение и дисперсия являются атрибутами параметров модели, а не данными, используемыми для их оценки. В этом утверждении есть частичное исключение, которое относится к смещению и изменчивости (ха!) В пространстве предикторов; Подробнее об этом ниже. Обратите внимание, что это не имеет абсолютно никакого отношения к знанию некоторой «истинной» функции, связывающей предикторы и переменные ответа.

ββ^знак равно(ИксTИкс)-1ИксTYИксN×пβ^п×1YN×1Nпβ^NяTерNNяTерβ^Nп

β^беsTпβ^беsTJ-β^JJ1NяTер

Существуют соответствующие способы связывания смещения и дисперсии с самими данными, но они немного сложнее. Как вы можете видеть, смещение и дисперсию можно оценить для линейных моделей, но вам потребуется совсем немного данных. Более коварная проблема заключается в том, что, как только вы начнете работать с фиксированным набором данных, ваши анализы будут загрязнены вашей личной дисперсией, поскольку вы уже начали блуждать по саду разветвленных путей, и нет способа узнать, как это происходит. будет воспроизводиться вне выборки (если только вы не придумали единственную модель, не выполнили этот анализ и не решили оставить его в покое после этого).

YY^Y-Y^Y^знак равноИксβ^β^ YИкс

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.