Сплайн df-выбор в общей аддитивной задаче модели Пуассона


9

Я подгонял некоторые данные временных рядов, используя общую аддитивную модель Пуассона, используя SAS PROC GAM. Вообще говоря, у меня есть встроенная обобщенная процедура перекрестной проверки, которая генерирует, по крайней мере, достойную «начальную точку» для моего единственного сплайна, который является нелинейной функцией времени вместе с одним параметрическим членом (который я меня на самом деле интересует).

Пока что это работает довольно плавно, за исключением одного из моих наборов данных. В этом наборе данных 132 наблюдения, и GCV предлагает сплайн 128 степеней свободы. Это кажется ... неправильно. Очень неправильно. Что еще более важно, это также совсем не стабильно. Я попробовал второй подход, используя что-то вроде критерия «Изменение оценки», чтобы прекратить добавлять степени свободы, когда оценка параметрического члена перестает меняться, потому что зачем продолжать добавлять контроль, если ничто не отличается?

Проблема в том, что оценка совсем не стабильна. Я попробовал следующие степени свободы, и, как вы можете видеть, параметрический термин дико прыгает:

DF: Parametric Estimate:
1   -0.76903
2   -0.56308
3   -0.47103
4   -0.43631
5   -0.33108
6   -0.1495
7    0.0743
8    0.33459
9    0.62413
10   0.92161
15   1.88763
20   1.98869
30   2.5223
40-60 had convergence issues
70   7.5497
80   7.22267
90   6.71618
100  5.83808
110  4.61436
128  1.32347

У меня нет никакой интуиции о том, что я должен использовать с точки зрения df для этого конкретного бита данных. Любые другие идеи о том, как выбрать DF? Должен ли я смотреть на значение сплайна?

Еще раз посмотрев между df = 10 и df = 15, похоже, что df = 12 - самое близкое к оценке, сгенерированной 128, и все еще находящаяся в диапазоне «разумных степеней свободы». Наряду с линейным, перехватывающим и однопараметрическим членами, это похоже на довольно насыщенную модель. Оправданно ли просто идти с 12?

Как второе обновление, изменение сглаживания с spline(t)на loess(t)приводит к гораздо более хорошим поведенческим оценкам df - я должен просто переключиться на сглаживание лесса?


Имеется ли в вашем наборе данных со 132 наблюдениями связанный член подсчета и смещения, означающий, что это на самом деле взвешенный набор данных со многими более чем 132 наблюдениями? Из-за отношения средней дисперсии в пуассоновских RV большие значения могут привести к свойствам «выбора модели», которые являются неблагоприятными из-за «большого размера выборки».
AdamO

Набор данных представляет собой данные за 132 недели, смоделированные как число = условия модели + журнал (человеко-время) как смещение. Количество никогда не бывает особенно высоким - но есть немало нулей.
Fomite

Ответы:


5

Как упоминает @ M.Berk, известно, что GCV недостаточно гладкий, в первую очередь потому, что этот критерий слабо наказывает переоснащение, что приводит к очень малому минимуму в критерии GCV как функции , параметра гладкости. Поскольку минимум очень мал, оптимальный GCV может иметь место в широком диапазоне оценок. Кроме того, критерий GCV, как функция имеет тенденцию иметь несколько минимумов, что может привести к нестабильности, которую вы описываете. У Саймона Вуда (2011) есть хорошая иллюстрация этого на его рисунке 1.λ λλλλ

Вуд (2011) также показывает, что AICc не дает большого дополнительного преимущества по сравнению с GCV для базовых рангов низкого и среднего ранга, используемых для гладких функций.

Напротив, выбор гладкости REML (а также ML) более сильно наказывает перегрузку, чем GCV, и, следовательно, имеет гораздо более четко определенный оптимум. Это приводит к более стабильным оценкам и значительно снижает риск недогрева.λ

Вуд (2011) описывает процедуры оценки REML и ML, которые являются быстрыми и стабильными, что, как он показывает, улучшает по сравнению с существующими подходами REML (ML) с точки зрения конвергенции. Эти идеи доступны в Саймона mgcv пакет для R .

Поскольку Вуд (2011) находится за платным доступом, я включаю копию подобного изображения (результаты AICc здесь не показаны), взятого из набора слайдов Саймона, доступных на его веб-сайте , о методах выбора плавности {PDF}. Рисунок из слайда 10 показан ниже

введите описание изображения здесь

Две строки отражают моделируемые данные, где присутствует сильный (верхний) или нет (нижний) сигнал соответственно. Самые левые панели показывают реализацию каждой модели. На остальных панелях показано, как изменяются критерии GCV (средний столбец) и REML как функция для 10 наборов данных, каждый из которых моделируется из реальной модели. В случае верхнего ряда, обратите внимание, насколько плоский GCV находится слева от оптимума. Графики ковров на этих панелях показывают оптимальное значение для каждой из 10 реализаций. Критерий REML имеет гораздо более выраженный оптимум и меньшую дисперсию в выбранных значениях .λ λλλλ

Следовательно, я бы предложил подход, отстаиваемый Саймоном Вудом для его пакета mgcv , а именно выбрать в качестве базового измерения нечто достаточно большое, чтобы включить ожидаемую гибкость в отношениях между , но не так большой. Затем подгоните модель, используя выбор гладкости REML. Если выбранные модели степеней свободы близки к указанному изначально размеру, увеличьте базовый размер и установите заново.y=f(x)+ε

Как упоминают и @ M.Berk, и @BrendenDufault, при настройке сплайнового базиса может потребоваться степень субъективности в плане выбора подходящего базового измерения, из которого будет соответствовать GAM. Но выбор плавности REML оказался достаточно надежным в моем опыте в ряде приложений GAM с использованием методов Вуда.

Вуд, С. Н. (2011) Быстрое стабильное ограничение максимального правдоподобия и предельного правдоподобия для полупараметрических обобщенных линейных моделей . J. Королевское статистическое общество B 73 (часть 1), 3--6.


@EpiGrad Добро пожаловать. Извините, я пропустил вопрос в то время; За последние год или два я боролся с ситуациями, похожими на вашу, и несколько раз читал статьи Саймона Вуда по этому поводу и подбор функций. Рад, что мне удалось вспомнить некоторые детали, чтобы помочь.
Гэвин Симпсон,

3

Я думаю, что ваша лучшая ставка лежит вне алгоритмов сглаживания; Рассмотрим модель скупости.

Вы намекаете на это, но я считаю, что это должно стать вашим главным критерием отбора. Спросите себя, сколько «изгибов» кажется разумным, исходя из этиологии / причинности моделируемых процессов. Составьте график сплайнов с plots=components(clm)утверждением и визуально оцените их. Возможно, сплайны с высоким DF рассказывают ту же историю, что и сплайны с низким DF, за исключением более шумных. В этом случае выберите низкую посадку DF.

В конце концов, модели GAM предназначены для ознакомительных.

Использовав GCV вариант сам, я задаюсь вопросом о своей деятельности в условиях Пуассона, разреженных данных и т.д. Возможно исследование моделирование связано здесь.


2

Я набрал следующий ответ и понял, что понятия не имею, применимо ли это к регрессии Пуассона, с которой у меня нет опыта. Возможно, люди могут ответить на это с некоторыми комментариями.


Лично мне нравится совет Б.В. Сильвермана (1985 г.) «Некоторые аспекты подхода сглаживания сплайнов к непараметрической подгонке кривой регрессии (с обсуждением)». (Доступно без подписки здесь ): попробуйте диапазон параметров сглаживания и выберите наиболее привлекательный.

Как он также справедливо указывает в той же статье, хотя субъективный подход может быть предпочтительным, все еще существует потребность в автоматических методах. Тем не менее, GCV, как правило, плохой выбор, поскольку он имеет тенденцию к недостаточной гладкости. См., Например, Hurvich et al. (1998) «Выбор параметров сглаживания при непараметрической регрессии с использованием улучшенного информационного критерия Акаике» (доступен здесь без подписки ). В той же статье они предлагают новый критерий, который может облегчить вашу проблему, исправленный AIC, который включает небольшую коррекцию размера выборки. Вы можете найти описание AICc в Википедии проще, чем в статье. Статья Википедии также содержит несколько полезных советов от Burnham & Anderson (то есть используйте AICc вместо AIC независимо от размера выборки).

Таким образом, мои предложения будут в порядке предпочтения:

  1. Выберите параметр сглаживания вручную с помощью визуальной оценки
  2. Используйте исправленный AIC (AICc), а не GCV
  3. Используйте стандартный AIC
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.