Линейная и нелинейная регрессия


13

У меня есть набор значений и которые теоретически связаны экспоненциально:xy

y=axb

Одним из способов получения коэффициентов является применение натуральных логарифмов с обеих сторон и подгонка линейной модели:

> fit <- lm(log(y)~log(x))
> a <- exp(fit$coefficients[1])
> b <- fit$coefficients[2]

Другой способ получить это - использовать нелинейную регрессию, учитывая теоретический набор начальных значений:

> fit <- nls(y~a*x^b, start=c(a=50, b=1.3))

Мои тесты показывают лучшие и более связанные с теорией результаты, если я применяю второй алгоритм. Тем не менее, я хотел бы знать статистическое значение и значение каждого метода.

Какой из них лучше?


3
Пожалуйста, взгляните на этот пост, в котором рассматривается аналогичный вопрос. Эта статья также может представлять интерес.
COOLSerdash

5
«экспоненциальный» обычно подразумевает нечто, основанное на exp()том, что у вас здесь чаще всего называется степенной функцией, степенным законом или законом масштабирования. Другие имена, без сомнения, существуют. Нет никакой связи с властью в смысле проверки гипотез.
Ник Кокс

Ответы:


16

«Лучше» - это функция вашей модели.

Частично причина вашего замешательства в том, что вы написали только половину своей модели.

y=axbyaxb

Например, две упомянутые вами модели (не единственно возможные модели) делают совершенно разные предположения об ошибке.

E(Y|X=x)=axb,

Yx

  • Когда вы подходите к нелинейной модели наименьших квадратов, вы говорите, что ошибки аддитивны, а стандартное отклонение ошибок постоянно для данных:

    yiN(axib,σ2)

    или эквивалентно

    yi=axib+eivar(ei)=σ2

  • напротив, когда вы берете журналы и подгоняете линейную модель, вы говорите, что ошибка является аддитивной в масштабе журнала и (в масштабе журнала) постоянной для данных. Это означает, что в масштабе наблюдений термин ошибки является мультипликативным , и поэтому ошибки больше, когда ожидаемые значения больше:

    yilogN(loga+blogxi,σ2)

    или эквивалентно

    yi=axibηiηilogN(0,σ2)

    E(η)σ2

(Вы можете делать наименьшие квадраты, не предполагая нормального / логнормального распределения, но обсуждаемая центральная проблема по-прежнему применима ... и если вы не приблизились к нормальности, вам, вероятно, все равно следует рассмотреть другую модель ошибок)

То, что лучше, зависит от того, какая модель ошибок описывает ваши обстоятельства.

yxx


9

Когда вы подходите к любой модели, вы предполагаете, что набор невязок (расхождений между наблюдаемыми и прогнозируемыми значениями Y) соответствует распределению Гаусса. Если это предположение верно для ваших необработанных данных (нелинейная регрессия), то оно не будет верным для лог-преобразованных значений (линейная регрессия), и наоборот.

Какая модель "лучше"? Тот, где предположения модели наиболее точно соответствуют данным.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.