Я ищу расширенное тематическое исследование линейной регрессии, иллюстрирующее шаги, необходимые для моделирования сложных, множественных нелинейных отношений с использованием GLM или OLS. На удивление трудно найти ресурсы, выходящие за рамки базовых школьных примеров: большинство книг, которые я прочитал, не пойдет дальше, чем лог-преобразование ответа в сочетании с BoxCox одного предиктора или естественный сплайн в лучшем случае. Также все примеры, которые я видел до сих пор, подходят к каждой проблеме преобразования данных в отдельной модели, часто в одной модели предиктора.
Я знаю, что такое трансформация BoxCox или YeoJohnson. То, что я ищу, является подробным, практическим примером, где ответ / отношения не ясны. Например, ответ не является строго положительным (поэтому вы не можете использовать log или BoxCox), предикторы имеют нелинейные отношения между собой и против ответа, а преобразования данных с максимальной вероятностью, по-видимому, не подразумевают стандарт 0,33. или 0,5 степени. Также обнаружено, что остаточная дисперсия не является постоянной (она никогда не бывает), поэтому необходимо также преобразовать ответ и сделать выбор между нестандартной регрессией семейства GLM или преобразованием ответа. Исследователь, скорее всего, сделает выбор, чтобы избежать перегрузки данных.
РЕДАКТИРОВАТЬ
Пока я собрал следующие ресурсы:
- Стратегии регрессионного моделирования, Ф. Харрелл
- Прикладной эконометрический временной ряд, В. Эндерс
- Динамические линейные модели с R, Г. Петрис
- Прикладной регрессионный анализ, Д. Кляйнбаум
- Введение в статистическое обучение, G. James / D. Виттен
Я только прочитал последний (ISLR), и это очень хороший текст (5 5 звезд на моих часах), хотя он больше ориентирован на ML, чем на расширенное регрессионное моделирование.
Существует также это хороший пост на CV , который представляет собой вызов регрессии болезни.