Примеры расширенного регрессионного моделирования


22

Я ищу расширенное тематическое исследование линейной регрессии, иллюстрирующее шаги, необходимые для моделирования сложных, множественных нелинейных отношений с использованием GLM или OLS. На удивление трудно найти ресурсы, выходящие за рамки базовых школьных примеров: большинство книг, которые я прочитал, не пойдет дальше, чем лог-преобразование ответа в сочетании с BoxCox одного предиктора или естественный сплайн в лучшем случае. Также все примеры, которые я видел до сих пор, подходят к каждой проблеме преобразования данных в отдельной модели, часто в одной модели предиктора.

Я знаю, что такое трансформация BoxCox или YeoJohnson. То, что я ищу, является подробным, практическим примером, где ответ / отношения не ясны. Например, ответ не является строго положительным (поэтому вы не можете использовать log или BoxCox), предикторы имеют нелинейные отношения между собой и против ответа, а преобразования данных с максимальной вероятностью, по-видимому, не подразумевают стандарт 0,33. или 0,5 степени. Также обнаружено, что остаточная дисперсия не является постоянной (она никогда не бывает), поэтому необходимо также преобразовать ответ и сделать выбор между нестандартной регрессией семейства GLM или преобразованием ответа. Исследователь, скорее всего, сделает выбор, чтобы избежать перегрузки данных.

РЕДАКТИРОВАТЬ

Пока я собрал следующие ресурсы:

  • Стратегии регрессионного моделирования, Ф. Харрелл
  • Прикладной эконометрический временной ряд, В. Эндерс
  • Динамические линейные модели с R, Г. Петрис
  • Прикладной регрессионный анализ, Д. Кляйнбаум
  • Введение в статистическое обучение, G. James / D. Виттен

Я только прочитал последний (ISLR), и это очень хороший текст (5 5 звезд на моих часах), хотя он больше ориентирован на ML, чем на расширенное регрессионное моделирование.

Существует также это хороший пост на CV , который представляет собой вызов регрессии болезни.


8
Я полагаю, что книга Фрэнка Харрелла ( amazon.com/… ) может быть полезной.
Адам Робинссон

@ AdamRobinsson Я вижу, что содержание затрагивает несколько важных тем (многовариантные модели, сплайны, мультиколлинеарность), но эти методологии проиллюстрированы вместе в реальном примере или каждая тема объясняется отдельно? Потому что обычно в реальных примерах все проблемы встречаются вместе, и никогда не очевидно, как правильно ими управлять.
Роберт Кубрик

1
Я еще не прочитал всю книгу, но первые 150 страниц были великолепны (я не специалист по статистике, просто энтузиаст). Примеры обширны и разработаны. Книга сопровождается пакетом RMS (стратегии регрессионного моделирования) для R. Я также посмотрел конкурирующую книгу Дэвида Кляйнбаумса (к сожалению, забыл название), но в ней было гораздо меньше о стратегиях и примерах (и она была вдвое дороже).
Адам Робинссон

3
@RobertKubrick: «многомерная регрессия» означает более одного ответа (см. Вики для добавленного вами тега или здесь ). «Множественная регрессия» означает более одного предиктора.
Scortchi - Восстановить Монику

3
Вы можете проверить Прикладные эконометрические временные ряды Эндерсом. Новая версия охватывает нелинейные модели в конце книги. Почти все данные общедоступны на веб-сайте Сент-Луисского Федерального правительства (доступно через Quantmod в R), поэтому вы можете следить за примерами из реальной жизни. Динамические линейные модели с R также имеют несколько примеров с реальными данными, которые довольно приличны.
Эрик Брэди

Ответы:


10

Стратегии регрессионного моделирования и ISLR, о которых уже упоминали другие, являются двумя очень хорошими предложениями. У меня есть несколько других, которые вы можете рассмотреть.

Прикладное прогнозирующее моделирование Куна и Джонсона содержит ряд хороших примеров и довольно практично.

-

Обобщенные аддитивные модели: Введение с R от Саймона Вуда - это хорошее описание обобщенных аддитивных моделей и того, как вы подходите им, используя его mgcvпакет для R. В нем есть несколько нетривиальных практических примеров. Использование моделей GAM является альтернативой для определения «правильного» преобразования, поскольку это выполняется адаптивным способом данных с помощью сплайнового расширения и штрафной оценки максимального правдоподобия. Однако есть еще другие варианты, которые необходимо сделать, например, выбор функции связи.

Пакет mboost для R также подходит для моделей GAM, но использует другой подход с помощью бустинга. Я рекомендую учебник для пакета (одна из виньеток).

Я также упомяну об открытии эмпирической модели и оценке теории Хендри и Доорником, хотя я сам еще не читал эту книгу. Это было рекомендовано мне.


Прикладное прогнозирующее моделирование ... так себе. Я предпочитаю ISLR.
Роберт Кубрик

5

Один из лучших курсовых материалов, которые вы можете найти по продвинутой, множественной, сложной (в том числе нелинейной) регрессии, основан на книге Фрэнка Э. Харрелла младшего «Стратегии регрессионного моделирования».

Книга обсуждается в комментариях, но не в этом материале, который сам по себе является отличным ресурсом.


2

Я бы порекомендовал книгу Джошуа Д. Ангриста и Йорна-Штеффена Пишке « В основном безвредная эконометрика ».

Это самый настоящий, соленый для земли, текст, которым я владею, и он очень дешевый, около $ 26,00 новый. Книга написана для выпускника статистики / экономиста, поэтому она достаточно продвинута.

Теперь эта книга - не совсем то, о чем вы просите, в том смысле, что она фокусируется не на «сложных, множественных нелинейных отношениях», а на основных принципах, таких как эндогенность, интерпретация и умный регрессионный дизайн.

Но я предлагаю эту книгу, чтобы попытаться сделать точку. То есть, когда речь заходит о применении регрессионного анализа в реальном мире, наиболее сложные вопросы, как правило, не связаны с тем, что наши модели не достаточно сложны ... поверьте, мы очень хорошо разбираемся в очень сложных моделей! Скорее самые большие проблемы такие вещи, как

  1. Эндогенность
  2. не имея всех данных нам нужно
  3. Наличие большого количества данных ... и все это беспорядок!
  4. Многие люди не могут правильно интерпретировать свои собственные модели (проблема становится все более распространенной, когда мы делаем модели более сложными)

Точное понимание GMM, нелинейных фильтров и непараметрической регрессии в значительной степени охватывает все темы, которые вы перечислили, и вы можете изучить их по ходу работы. Однако, с данными реального мира, эти структуры могут быть слишком сложными, а зачастую и вредными.

Все чаще всего это умение быть простым, а не полностью обобщенным и очень сложным, что приносит вам наибольшую пользу при анализе в реальном мире. Эта книга поможет вам с первым.


1

Вы можете сослаться на Введение в статистическое обучение с помощью R (ISLR), в книге подробно рассказывается о сплайнах и полиномиальной регрессии с кейсами.


1

Я не уверен, какова цель вашего вопроса. Я могу порекомендовать текст эконометрического анализа Грина . У него тонна ссылок на документы внутри. Практически каждый пример в книге ссылается на опубликованную статью.

Чтобы дать вам представление, посмотрите на Пример 7.6 «Эффекты взаимодействия в логлинейной модели дохода» на стр. 195. Это относится к документу и набору данных: Реджина Т. Рифан, Ахим Вамбах и Андреас Миллион, « Стимулирующие эффекты в спросе на медицинское обслуживание: оценка данных двумерной панельной шкалы », Журнал прикладной эконометрики, вып. 18, № 4, 2003, с. 387-405.

Пример касается использования логлинейных моделей и эффектов взаимодействия. Вы можете прочитать всю статью, или это описание учебников. Это не выдуманный вариант использования. Это настоящее опубликованное исследование. Именно так люди на самом деле используют статистические методы в экономических исследованиях.

Как я уже писал, книга изобилует такими примерами использования передовых статистических методов.


0

Вы изучили некоторые курсы / книги по анализу финансовых временных рядов, которые пишет Рюи Цай (UChicago)?

http://faculty.chicagobooth.edu/ruey.tsay/teaching/

Классы Ruey Tsays и учебник предоставляют множество примеров из реальной жизни в области финансов сложных регрессий того типа, которые созданы для использования на финансовых рынках. Глава 1 начинается с моделей многофакторной регрессии и расширяется до моделей сезонных авторегрессионных временных рядов главами 5 или 6.


2
Да, и мне это не нравится. Он очень широкий по широте (от моделей волатильности до высокой частоты до ARIMA ...), слегка касается каждого предмета (как не может быть с таким большим количеством тем), а исследования и задачи R сводятся к минимуму. Это перефразировка научных работ и уже изложенных теорий / моделей, которые вы можете найти где-то еще. Это именно то, что я подразумеваю под школьными делами, которые никогда не сталкиваются со сложностью множества проблем в реальной, сложной проблеме.
Роберт Кубрик
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.