Понимание регрессий

46

Как может быть полезна модель регрессии, если вы не знаете функцию, для которой вы пытаетесь получить параметры?

Я видел исследование, в котором говорилось, что матери, которые кормили своих детей грудью, реже страдают диабетом. Исследование было проведено на основе опроса около 1000 матерей и контролировалось на различные факторы, и была использована логлинейная модель.

Значит ли это, что они учитывают все факторы, определяющие вероятность того, что диабет вписывается в хорошую функцию (предположительно экспоненциальную), которая аккуратно переводится в линейную модель с бревнами, и что оказалось, что кормление грудью женщины оказалось статистически значимым?

Я что-то упускаю, я уверен, но как, черт возьми, они знают модель?

— Джонатан Эндрюс
источник

Спасибо всем большое. Я хочу потратить немного времени на размышления о ваших ответах и, возможно, если вы не возражаете, я попытаюсь написать их в моих терминах для ваших взглядов. Мне нравится это описание процесса из серии Тейлора. Я должен был получить свои знания о регрессии совершенно случайно и через экономику и математику для экономистов, и связь с Тейлором заметна из-за его отсутствия.

— Джонатан Эндрюс

Я объединил ваши аккаунты; но, пожалуйста, зарегистрируйте его здесь stats.stackexchange.com/users/login, чтобы вы не потеряли его снова.

43

Это помогает рассматривать регрессию как линейное приближение истинной формы. Предположим, что истинные отношения

y = f (x_{1}, . . ., x_{k})

$y=f(x_1,...,x_k)$

$x_1,...,x_k$ $y$ $f$

f (x_{1}, . . ., x_{k}) = f (0, . . ., 0) + \sum_{i = 1}^{k} \frac{\partial f (0)}{\partial x_{k}} x_{k} + ε,

$f(x_1,...,x_k)=f(0,...,0)+\sum_{i=1}^{k}\frac{\partial f(0)}{\partial x_k}x_k+\varepsilon,$

$\varepsilon$ $\alpha_0=f(0,...,0)$ $\alpha_k=\frac{\partial{f}(0)}{\partial x_k}$

y = α_{0} + α_{1} x_{1} + . . . + α_{k} x_{k} + ε

$y=\alpha_0+\alpha_1 x_1+...+\alpha_k x_k + \varepsilon$

$\varepsilon$

— mpiktas
источник

1

Привет, очень хорошее объяснение, но мне не удается понять роль "сигмы" в расширении серии Тейлора. Как вы можете свести это уравнение, найденное здесь: mathworld.wolfram.com/TaylorSeries.html к «Ряду Тейлора вещественной функции с двумя переменными», к вашему?

— Арун

1

n = 1

$n=1$

18

Другая сторона ответа, дополняющая ответ mpiktas, но до сих пор не упомянутая:

«Это не так, но как только они примут какую-то структуру модели, они смогут проверить ее по данным».

Две основные вещи, которые могут пойти не так: форма функции, например, она не линейна в логах. Таким образом, вы начнете с построения соответствующего остатка относительно ожидаемых значений. Или выбор условного распределения , например, наблюдаемые пересчеты по сравнению с Пуассоном. Таким образом, вы будете проверять отрицательную биномиальную версию той же модели или посмотреть, не объясняют ли дополнительные ковариаты дополнительные вариации.

Вы также хотели бы проверить на выбросы, влиятельные наблюдения и множество других вещей. Разумное место, где можно прочитать о проверке такого рода типовых проблем, - гл.5 Кэмерона и Триведи 1998 года. (Несомненно, для эпидемиологически ориентированных исследователей есть лучшее место для начала - возможно, другие люди могут предложить это).

Если эти диагностические данные показывают, что модель не соответствует данным, вы измените соответствующий аспект модели и начнете весь процесс заново.

— conjugateprior
источник

1

+1 Это ключ, который предотвращает махание рукой: вы не знаете, но вы что-то пробуете, а затем смотрите, насколько хорошо это соответствует и каким образом оно не соответствует вашим данным.

— Уэйн

15

Отличный первый вопрос! Я согласен с ответом mpiktas, то есть кратким ответом «они этого не делают, но они надеются получить приближение к правильной модели, которая дает приблизительно правильный ответ».

На языке эпидемиологии эта неопределенность модели является одним из источников так называемого « остаточного смешения ». Смотрите страницу Стива Саймона «Что такое остаточное смущение?» для хорошего краткого описания, или статья Хейко Бехера в журнале « Статистика в медицине» за 1992 г. (req'd подписки) для более продолжительного, более математического подхода, или более свежая статья Дэйви Смита и Стерна в « Американском журнале эпидемиологии» (подписка req'd). ).

Это одна из причин того, что эпидемиология небольших эффектов трудна, а результаты часто противоречивы - если измеренный размер эффекта мал, трудно исключить остаточное смешение или другие источники смещения в качестве объяснения.

— универсальный
источник

1

Я бы сказал, что неправильная спецификация модели, о которой говорит ОП, несколько отличается от остаточного смешения. Смешивание требует ковариации. Вы можете испортить регрессию только с неправильной спецификацией воздействия и результата.

— Fomite

13

Есть известная цитата «По сути, все модели ошибочны, но некоторые из них полезны» Джорджа Бокса . При подборе таких моделей мы стараемся (или должны) думать о процессе генерации данных и о физическом, реальном мире, отношениях между ответом и ковариатами. Мы пытаемся выразить эти отношения в модели, которая соответствует данным. Или, другими словами, это согласуется с данными. Как таковая эмпирическая модель производится.

Является ли это полезным или нет, определяется позже - дает ли он хорошие, надежные прогнозы, например, для женщин, не привыкших соответствовать модели? Являются ли коэффициенты модели интерпретируемыми и имеют научное значение? Значимы ли размеры эффекта?

— Восстановить Монику - Дж. Симпсон
источник

3

Ответы, которые вы уже получили, отличные, но я собираюсь дать (надеюсь) дополнительный ответ с точки зрения эпидемиолога. У меня действительно есть три мысли по этому поводу:

Во-первых, они этого не делают. Смотрите также: Все модели не правы, некоторые модели полезны. Цель не состоит в том, чтобы произвести единственное, определенное число, которое принимается за «истину» основной функции. Цель состоит в том, чтобы произвести оценку этой функции с количественной оценкой неопределенности вокруг нее, которая является разумным и полезным приближением основной функции.

Это особенно верно для мер с большим эффектом. Сообщение «забрать» из исследования, в котором обнаружен относительный риск 3,0, на самом деле не отличается, если «истинное» соотношение равно 2,5 или 3,2. Как упомянул @onestop, с небольшими оценками оценки эффекта это усложняется, потому что разница между 0,9, 1,0 и 1,1 может быть огромной с точки зрения здоровья и политики.

Во-вторых, в большинстве эпидемиологических работ скрыт процесс. Это фактический процесс выбора модели . Мы склонны сообщать о модели, с которой мы работали, а не обо всех моделях, которые мы рассматривали (потому что это было бы утомительно, если ничего больше). Существует множество этапов построения моделей, концептуальные схемы, диагностика, статистика соответствия, анализ чувствительности, ругань на компьютерах и каракули на белых досках, участвующие в анализе даже небольших наблюдательных исследований.

Потому что в то время как вы будете делать предположение, многие из них также предположений , которые вы можете проверить.

В-третьих, иногда нет. А потом мы идем на конференции и спорим друг с другом об этом;)

Если вам интересны основные аспекты эпидемиологии как области и того, как мы проводим исследования, лучше всего начать с « Эпидемиологии третьего издания » Ротмана, Гренландии и Лэша. Это в меру технический и очень хороший обзор того, как проводится исследование Epi.

— фомиты
источник

1

+1, это хорошее дополнение к тому, что здесь. Приятно видеть, что полезный вклад все еще можно сделать, даже после того, как так много других хороших уже существует.

— gung - Восстановить Монику

Понимание регрессий - роль модели