Что означает линейный в линейной регрессии?

11

В R, если я напишу

lm(a ~ b + c + b*c)

это все еще будет линейной регрессией?

Как сделать другие виды регрессии в R? Буду признателен за рекомендации по учебникам или учебникам?

r regression

— suprvisr
источник

Я попытался немного перефразировать ваш вопрос. Боюсь, похоже, ты задаешь два совершенно разных вопроса. Для второго, много ресурсов доступно на этом сайте, но также и на CRAN .

— ЧЛ

@ CHL, да, спасибо, мне было не ясно. Мои вопросы на самом деле таковы: если я пишу LM на R, понимает ли R его как линейный всегда или пытается соответствовать любой модели, не обязательно линейной регрессии, но какой-либо регрессии?

— suprvisr

Нет, lm()обозначает линейную регрессию. Ваша модель включает в себя три параметра (минус перехватывать) для b, cи их взаимодействия b:c, что означает b + c + b:cили b*cдля краткости (R следует нотации Уилкинсона для статистических моделей). Подгонка обобщенной линейной модели (т. Е. Когда функция связи не является тождественной, как в случае с линейной моделью, описанной выше) запрашивается через glm().

— ЧЛ

24

Линейный относится к взаимосвязи между оцениваемыми параметрами (например, ) и результатом (например, ). Следовательно, является линейным, а - нет. Линейная модель означает, что ваша оценка вашего вектора параметров может быть записана как , где - это веса, определенные вашей процедурой оценки. Линейные модели могут быть решены алгебраически в замкнутой форме, в то время как многие нелинейные модели должны быть решены путем численного максимизации с использованием компьютера. $\beta$ $y_i$ $y=e^x\beta+\epsilon$ $y=e^\beta x + \epsilon$ $\hat{\beta} = \sum_i{w_iy_i}$ $\{w_i\}$

— Чарли
источник

6

+1 В частности, в «линейной модели» зависимая переменная является линейной функцией параметров, но не обязательно данных.

y

$y$

— whuber

1-й линейный? действительно - тот, к власти х?

— suprvisr

2

Да, потому что - это не количество интереса (которое вы оптимизируете), а . Таким образом, он является линейным в .

x

$x$

β

$\beta$

β

$\beta$

— Bayerj

+1, но этот ответ можно улучшить, комментируя формулу в вопросе.

— naught101

1

Во втором чтении я замечаю, что вторая половина этого ответа путает «линейную модель» с «линейной оценкой». Эти две концепции разные и разные. Нелинейные модели часто имеют линейные оценки, а линейные модели могут иметь нелинейные оценки (например, рассмотрим GLM).

— whuber

5

Этот пост на minitab.com дает очень четкое объяснение:

Модель является линейной, когда ее можно записать в следующем формате:
- Response = constant + parameter * predictor + ... + parameter * predictor
  - То есть, когда каждый член (в модели) является либо константой, либо произведением параметра и переменной-предиктора.
- Итак, обе они являются линейными моделями:
  - $Y = B_0 + B_1X_1$ (это прямая линия)
  - $Y = B_0 + B_1X_1^2$ (это кривая)
Если модель не может быть выражена с использованием вышеуказанного формата, она является нелинейной.
- Примеры нелинейных моделей:
  - $Y = B_0 +$ $X_1^{B_1}$
  - $Y = B_0 \centerdot \cos (B_1 \centerdot X_1)$

— Патрик Нг
источник

4

Я был бы осторожен, задавая это как вопрос «R линейной регрессии» против вопроса «линейной регрессии». Формулы в R содержат правила, о которых вы можете знать или не знать. Например:

http://wiener.math.csi.cuny.edu/st/stRmanual/ModelFormula.html

Предполагая, что вы спрашиваете, является ли следующее уравнение линейным:

a = coeff0 + (coeff1 * b) + (coeff2 * c) + (coeff3 * (b*c))

Ответ - да, если вы собираете новую независимую переменную, такую как:

newv = b * c

Подстановка приведенного выше уравнения newv в исходное уравнение, вероятно, выглядит так, как вы ожидаете для линейного уравнения:

a = coeff0 + (coeff1 * b) + (coeff2 * c) + (coeff3 * newv)

Что касается ссылок, Google "r регресс", или как вы думаете, может работать для вас.

— bill_080
источник

Как переименование чего-либо делает его линейным? Я не понимаю, если тождество newv = b * c имеет место, оно вообще не линейно. Я запутался.

— Bayerj

@bayer: newv - это новая переменная. Новое уравнение представляет собой линейную функцию трех переменных (b, c, newv), где коэффициенты обеспечивают линейную зависимость. Ни одно из уравнений не является линейной комбинацией только двух переменных.

— bill_080

@bayer Смотрите ответ @Charlie. В настоящем примере обе модели являются линейными (независимо от того, рассматривает ли их R как таковой), поскольку в обеих из них aесть линейная функция четырех коэффициентов.

— whuber

спасибо, это имеет смысл ... могу ли я просто добавить новую переменную neww, являющуюся b * c для каждого случая в базе данных (медицинская), и затем рассматривать ее как линейную регрессию?

— suprvisr

2

Вы можете записать линейную регрессию в виде (линейного) матричного уравнения.

$\left[ \matrix{a_1 \\a_2 \\a_3 \\a_4 \\a_5 \\ ... \\ a_n} \right] = \left[ \matrix{b_1 & c_1 & b_1*c_1 \\ b_2 & c_2 & b_2*c_2 \\b_3 & c_3 & b_3*c_3 \\b_4 & c_4 & b_4*c_4 \\b_5 & c_5 & b_5*c_5 \\ &...& \\ b_n & c_n & b_n*c_n } \right] \times \left[\matrix{\alpha_b & \alpha_c & \alpha_{b*c}} \right] + \left[ \matrix{\epsilon_1 \\\epsilon_2 \\\epsilon_3 \\\epsilon_4 \\\epsilon_5 \\ ... \\ \epsilon_n} \right]$

или если вы свернете это:

$\mathbf{a} = \alpha_b \mathbf{b} + \alpha_c \mathbf{c} + \alpha_{b*c} \mathbf{b*c} + \mathbf{\epsilon}$

Эта линейная регрессия эквивалентна нахождению линейной комбинации векторов , и , ближайшей к вектору . $\mathbf{b}$ $\mathbf{c}$ $\mathbf{b*c}$ $\mathbf{a}$

(Это также имеет геометрическую интерпретацию как нахождение проекции на диапазон векторов , и . Для задачи с двумя векторами столбцов с тремя измерениями это все еще можно нарисовать как рисунок, например, как показано здесь: http://www.math.brown.edu/~banchoff/gc/linalg/linalg.html ) $\mathbf{a}$ $\mathbf{b}$ $\mathbf{c}$ $\mathbf{b*c}$

Понимание этой концепции также важно при нелинейной регрессии. Например, гораздо проще решить чем поскольку первая параметризация позволяет решить коэффициенты и с помощью методов линейной регрессии. $y=a e^{ct} + b e^{dt}$ $y=u(e^{c(t-v)}+e^{d(t-v)})$ $a$ $b$

— Секст Эмпирик
источник

Я чувствую, что это лучший ответ, потому что он отвечает на вопрос «Почему, а не просто что?». Ответ на вопрос «Что» не приводит к лучшей интуиции.

— Гексатоник