У меня есть вопрос относительно правильной методики начальной загрузки для использования с данными, где присутствует сильная кластеризация.
Мне было поручено оценить многомерную модель прогнозирования смешанных эффектов для данных страховых требований путем оценки текущей базовой модели на более поздних данных о претензиях, чтобы определить, насколько хорошо модель прогнозирует, какие эпизоды медицинской помощи содержат наибольшую частоту сеансов (верхний 95 процентиль). Чувствительность, специфичность и положительная прогностическая ценность (PPV) будут использоваться для оценки эффективности модели.
Самозагрузка кажется правильным способом построения доверительных интервалов для чувствительности, специфичности и процентного отношения PPV. К сожалению, наивный бутстрап не подходит, учитывая, что данные претензий 1) коррелируют с лечащим врачом, 2) сгруппированы в эпизоды оказания помощи с более частыми посещениями в течение нескольких месяцев ранее в эпизоде оказания помощи (поэтому присутствует некоторая автокорреляция). Будет ли здесь уместным вариант с техникой начальной загрузки движущихся блоков?
Или, возможно, сработает трехэтапная процедура начальной загрузки: 1) выборка с заменой от отдельных поставщиков в данных, затем 2) выборка с заменой от отдельных эпизодов оказания помощи выбранными поставщиками, затем 3) выборка с заменой из отдельных заявок в каждой выбранный эпизод.
Большое спасибо за любые предложения!