Расчет доверительных интервалов с помощью начальной загрузки на основе зависимых наблюдений

Бутстрап в его стандартной форме может использоваться для расчета доверительных интервалов оценочной статистики при условии, что наблюдения выполнены. I. Visser и соавт. в « Доверительных интервалах для скрытых параметров модели Маркова » использовался параметрический загрузчик для расчета КЭ для параметров НММ. Однако, когда мы подгоняем HMM к последовательности наблюдений, мы уже предположили, что наблюдения являются зависимыми (в отличие от смешанных моделей).

У меня есть два вопроса:

Что делает предположение iid с начальной загрузкой?
Можем ли мы игнорировать требование iid в параметрической начальной загрузке?

Visser et al. Метод вкратце выглядит следующим образом:

Предположим , что мы имеем последовательность наблюдения в результате выборки НММ с реальным , но неизвестным множеством параметров . $Y=o_1,o_2,...,o_n$ $\theta=\theta_1,\theta_2,...,\theta_l$
Эти параметры могут быть оценены с использованием алгоритма $\hat{\theta}=\hat{\theta}_1,\hat{\theta}_2,...,\hat{\theta}_l$
Используйте оценочную HMM , чтобы создать образец самозагрузки размера : $n$ $Y^*=o^*_1,o^*_2,...,o^*_n$
Оценка параметров НММ в соответствии с образцом $\hat{\theta}^*=\hat{\theta}^*_1,\hat{\theta}^*_2,...,\hat{\theta}^*_l$
Повторите шаги 3 и 4 для раз (например , = 1000) , в результате бутстраповских $B$ $B$ $B$ $\hat{\theta}^*(1),\hat{\theta}^*(2),...,\hat{\theta}^*(B)$
Вычислить CI каждого оцениваемого параметра , используя распределение в бутстраповских оценках. $\hat{\theta}_i$ $\hat{\theta}^*_i$

Примечания (мои выводы):

Метод процентилей следует использовать для расчета КИ, чтобы иметь правильное покрытие (нормальность - неверное предположение).
Смещение распределения начальной загрузки должно быть исправлено. Это означает , что среднее распределение & должен быть перенесен на $\hat{\theta}^*_i$ $\hat{\theta}_i$

confidence-interval bootstrap hidden-markov-model

— Sadeghd
источник

Первый вопрос, другими словами: как влияет предположение iid на начальную загрузку? Это упрощающее предположение, которое можно удалить, следуя более сложному алгоритму или формуле?

— Садегд

Краткие ответы: 1. Это упрощает. (Честно говоря, я не получил вопрос). 2. Нет, вы никогда не можете игнорировать это, так как отсутствие iid имеет немедленные последствия для отклонений от того, что вы оцениваете.

Средний ответ: центральная проблема начальной загрузки заключается в том, воспроизводит ли предложенная процедура особенности данных? , Нарушение предположения iid является серьезной проблемой: ваши данные зависимы, у вас (скорее всего) меньше данных, чем было бы в образце iid того же размера, и если вы запускаете наивный загрузчик (повторная выборка отдельных лиц) наблюдения), стандартные ошибки, которые вы получите от него, будут слишком малы. Предложенная процедура позволяет обойти проблему отсутствия независимости, фиксируя (или, по крайней мере, пытаясь захватить) зависимость в структуре и параметрах модели. В случае успеха каждый образец начальной загрузки будет воспроизводить свойства данных по мере необходимости.

Длинный ответ:Существует несколько уровней предположений относительно начальной загрузки, и даже в самом простом возможном случае (данные iid, оценка среднего значения) вы должны сделать как минимум три предположения: (1) представляющая интерес статистика является гладкой функцией данных (верно в случае среднего значения, не так верно даже в случае процентилей, полностью не совпадающих, скажем, с оценками соответствия ближайшего соседа); (2) распределение, из которого вы запускаете загрузку, «близко» к распределению населения (работает нормально в случае данных iid; может не работать нормально в случае зависимых данных, когда у вас по существу есть только одна траектория = одно наблюдение в случай временных рядов, и вы должны вызвать дополнительные предположения, такие как стационарность и смешивание, чтобы превратить это единственное наблюдение в квазипопуляцию); (3) ваша выборка начальной загрузки по методу Монте-Карло является достаточно хорошим приближением к полной начальной загрузке со всеми возможными подвыборками (погрешность использования Монте-Карло и полной начальной загрузки намного меньше, чем неопределенность, которую вы пытаетесь уловить). В случае параметрической начальной загрузки вы также делаете предположение, что (4) ваша модель прекрасно объясняет все особенности данных.

$y=x\beta + \epsilon$ $[\epsilon] = \exp[ x\gamma]$ $\bar\sigma^2 (X'X)^{-1}$ $\bar\sigma^2$ $1/n \sum_i \exp[x_i \gamma]$ $(X'X)^{-1} \sum \exp[x_i \gamma] x_i x_i' (X'X)^{-1}$ ). Поэтому, если вы хотите получить полностью параметрическое решение для начальной загрузки, вам нужно будет согласовать модель гетероскедастичности с моделью среднего значения. И если вы подозреваете серийную или иную корреляцию, вам, возможно, придется подобрать модель и для этого. (См., Что непараметрический вариант начальной загрузки без распределения практически исчез, поскольку вы заменили голос данных синтезированным голосом вашей модели.)

Метод, который вы описали, работает вокруг предположения iid, создавая новый образец. Самая большая проблема с загрузкой зависимых данных состоит в том, чтобы создать выборку, которая имела бы шаблоны зависимости, которые были бы достаточно близки к тем в исходных данных. С временными рядами вы можете использовать блочные загрузчики; с кластеризованными данными вы загружаете целые кластеры; с гетероскедастической регрессией вы должны использовать дикие бутстрапы (что лучше, чем бутстреп остатков, даже если вы применили к нему модель гетероскедастичности). В блоке начальной загрузки вы должны сделать обоснованное предположение (или, другими словами, иметь веские основания полагать), что отдаленные части временных рядов приблизительно независимы, так что вся структура корреляции захватывается соседними 5 или 10 наблюдения, которые формируют блок. Таким образом, вместо повторной выборки наблюдений один за другим, которая полностью игнорирует корреляционную структуру временных рядов, вы производите повторную выборку в блоках, надеясь, что это будет соответствовать структуре корреляции. Упомянутый вами параметрический бутстрап говорит: «Вместо того, чтобы возиться с данными и собирать новые куклы из кусочков старых, почему бы мне просто не поставить вместо вас штампованную Барби? Я выяснил, какого рода Барби, которые тебе нравятся, и я обещаю, что сделаю тебя такой же, как ты. " Вместо того, чтобы возиться с данными и собирать новые куклы из кусочков старых, почему бы мне просто не поставить вместо вас штампованную Барби? Я выяснил, какие Барби тебе нравятся, и я обещаю, что сделаю тебя такой же, как ты. " Вместо того, чтобы возиться с данными и собирать новые куклы из кусочков старых, почему бы мне просто не поставить вместо вас штампованную Барби? Я выяснил, какие Барби тебе нравятся, и я обещаю, что сделаю тебя такой же, как ты. "

В случае параметрической начальной загрузки, которую вы описали, вы должны быть чертовски уверены, что ваша модель HMM идеально подходит, иначе ваша параметрическая начальная загрузка может привести к неверным результатам (Барби, которые не могут двигать руками). Подумайте о приведенном выше примере гетероскедастической регестации; или подумайте о том, чтобы согласовать модель AR (1) с данными AR (5): что бы вы ни делали с параметрически смоделированными данными, они не будут иметь структуру, которую имели исходные данные.

Изменить : как Sadeghd разъяснил свой вопрос, я также могу ответить на это. Существует огромное количество процедур начальной загрузки, каждая из которых направлена на конкретную причину в статистике, размере выборки, зависимости или любой другой проблеме с начальной загрузкой. Например, не существует единого способа решения проблемы зависимости. (Я работал с начальными этапами опросов, существует около 8 различных процедур, хотя некоторые в основном представляют методологический, а не практический интерес; а некоторые явно уступают в том, что они применимы только в особых, не легко обобщаемых случаях.) Для общее обсуждение проблем, с которыми вы можете столкнуться при помощи начальной загрузки, см. Canty, Davison, Hinkley and Ventura (2006). Bootstrap диагностика и средства. Канадский журнал статистики, 34 (1), 5-27 .

— Stask
источник

Просто добавьте немного к вашему заявлению о том, что у вас меньше информации, когда у вас есть зависимые кластеры данных (в разделе « Средний »), я считаю, что это верно, когда в кластере есть положительная внутриклассовая корреляция, но когда есть отрицательная, это наоборот внутриклассовая корреляция. Конечно, кажется, что в большинстве реальных приложений данных внутриклассовые корреляции являются положительными.

— Макрос

@Macro: вы, безусловно, правы по обоим пунктам (что это технически возможно, и что это практически не имеет значения). То же самое будет верно, если вы оцените средний уровень процесса AR (1) с отрицательной корреляцией, но, опять же, я затрудняюсь думать о реальных процессах, которые могут иметь эту функцию. В отличие от положительной автокорреляции, которая является самовоспроизводимой в разных временных масштабах, отрицательная корреляция должна исчезнуть, если вы удвоите продолжительность своего базового периода. (Данные по деловым циклам, такие как ВВП США, имеют отрицательную корреляцию при длине лага около трех лет.)

— StasK

Спасибо за ваш подробный ответ. Я пришел к выводу, что параметрическая повторная выборка может уменьшить эффект зависимости. Тем не менее, параметрическое распределение должно быть в значительной степени репрезентативным для истинной совокупности, и модели повторения должны быть восстановлены при повторной выборке.

— Садегд