Я думаю, что ваша первая проблема заключается в том, что больше не является нормальным распределением, и то, как данные должны быть преобразованы в гомоскедастические, зависит именно от того, что такое σ ( x , t ) . Например, если σ ( x , t ) = a x + b t , то ошибка является пропорциональной, и логарифм y-данных должен быть взят перед регрессией, или регрессия, скорректированная с обычного наименьших квадратов (OLS) до взвешенного наименьших квадратов с 1N(0,σ(x,t))σ(x,t)σ(x,t)=ax+bt вес (который изменяет регрессию до минимизированной пропорциональной погрешности типа). Точно так же, если σ ( x , t ) = e a x + b t , нужно будет взять логарифм логарифма и регрессировать.1/y2σ(x,t)=eax+bt
Я думаю, что причина, по которой предсказание типов ошибок плохо освещено, заключается в том, что сначала нужно выполнить любую старую регрессию (стон, обычно обычные наименьшие квадраты, OLS). А из остаточного графика, т. Е. , можно наблюдать остаточную форму, а другой - гистограмму частоты данных и смотреть на это. Затем, если остатки представляют собой веерные балки, открывающиеся справа, можно попробовать пропорциональное моделирование данных, если гистограмма выглядит как экспоненциальный спад, можно попробовать возвратно-поступательное движение, 1 / y и т. Д. Для квадратных корней, возведения в квадрат, возведения в степень , принимая экспоненциально-у.model−y1/y
Теперь это только небольшой рассказ. Более длинная версия включает в себя гораздо больше типов регрессии, в том числе регрессию медианы Тейла, двумерную регрессию Деминга и регрессию для минимизации ошибки некорректных задач, которые не имеют особой зависимости соответствия качества от минимизируемой распространяемой ошибки. Это последнее является громадина, но, увидеть этоВ качестве примера. Так что это имеет большое значение, какие ответы каждый пытается получить. Как правило, если кто-то хочет установить связь между переменными, рутинная OLS не является предпочтительным методом, и регрессия Тейла может быть быстрым и грязным улучшением этого. OLS минимизируется только в направлении y, поэтому наклон слишком мал, а пересечение слишком велико, чтобы установить, каковы основные отношения между переменными. Иными словами, OLS дает наименьшую оценку ошибки для y при заданном x, но не дает оценку того, как x изменяется с y. Когда значения r очень высоки (0.99999+), не имеет большого значения, какая регрессия используется, и OLS в y приблизительно такой же, как OLS в x, но, когда значения r низкие, OLS в y очень отличается от МЖС в х.
Таким образом, многое зависит от того, какие именно мотивы в первую очередь мотивировали проведение регрессионного анализа. Это диктует необходимые численные методы. После того, как этот выбор сделан, остатки тогда имеют структуру, которая связана с целью регрессии, и должны быть проанализированы в этом более широком контексте.