Как можно справиться с отсутствующими данными при использовании сплайнов или дробных полиномов?


12

Я читаю построение многомерной модели: прагматический подход к регрессионному анализу, основанный на дробных полиномах для моделирования непрерывных переменных, автор Патрик Ройстон и Вилли Сауэрбрей. Пока что я впечатлен, и это интересный подход, который я раньше не рассматривал.

Но авторы не имеют дело с отсутствующими данными. Действительно, на с. 17 они говорят, что недостающие данные «создают много дополнительных проблем. Здесь не рассматриваются».

Работает ли множественное вменение с дробными полиномами>

FP в некоторых отношениях (но не во всех) является альтернативой сплайнам. Легче ли справляться с отсутствующими данными для сплайн-регрессии?


Вы имеете дело с отсутствующими иксами или отсутствующими буквами?
Glen_b

2
+1 (!) Я очень рад, что кто-то еще задал похожий вопрос. Недавно я опубликовал этот вопрос: stats.stackexchange.com/questions/295977/… о том, как использовать ограниченные кубические сплайны у мышей R. Я бы специально выбрал сплайны, так как они не требуют указания дробного полинома, в то время как сплайны достаточно гибки для множества функциональных форм. Я не знаю, отвечает ли это на ваш вопрос, хотя (следовательно, этот комментарий).
IWS

2
Это интересный вопрос, открывающий (как один из возможных вариантов ответа) возможность подвергнуть критике эти несколько методов сглаживания / интерполяции путем противопоставления их способности учитывать отсутствующие данные. (В некоторой степени хрупкость к отсутствию - это «смущение» для современного метода.) Я отмечаю лишь, пропуская очевидный момент, что байесовская реализация получит ваше вменение «бесплатно».
Дэвид С. Норрис

2
@ DavidC.Norris Ваш комментарий меня заинтриговал! Не могли бы вы подробнее рассказать о том, как байесовские методы учитывают отсутствующие «бесплатно» (что, я полагаю, вы имеете в виду, обрабатывается методами анализа надлежащим образом, «автоматически» и по умолчанию)? (Или укажите мне ссылку)
IWS

2
Часть «свободного» обеда здесь состоит в том, что вы должны записать байесовскую модель, которая подразумевает явное размышление о процессе генерации данных ( DGP ). После того, как вы это сделаете, пропущенные значения рассматриваются как параметры [неприятности]. (В байесовском «все является параметром». См. Также скрытую переменную .) Затем ваш MCMC, по существу, использует DGP, который вы указали для «вменения» пропущенных значений «бесплатно», пока он пыхтит.
Дэвид С. Норрис,

Ответы:


1

f(x)f(x)=x+x.5fm()M1MmMfm(x)

Предполагая, что используемое вами программное обеспечение может обеспечить стандартную оценку ошибок для каждого уникального значения x, вы можете использовать формулу Рубина (множественное вменение для отсутствия ответов в опросах; 1987) для вычисления стандартных ошибок. Существуют малые и большие выборочные формулы для степеней свободы с множественным вменением. Большая выборочная формула (также в Rubin) принимает те же входные данные, что и стандартная ошибка, поэтому ее также можно использовать. В небольшом примере в качестве входных данных используются степени свободы модели; для меня не очевидно, может ли эта формула быть применена здесь.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.