Мне было интересно, как загрузочные CI (и BCa в barticular) работают на нормально распределенных данных. Похоже, что было проделано много работы по изучению их производительности в различных типах дистрибутивов, но ничего не удалось найти в нормально распределенных данных. Поскольку кажется очевидным, что изучать в первую очередь, я полагаю, что бумаги слишком старые.
Я провел несколько симуляций Монте-Карло с использованием загрузочного пакета R и обнаружил, что CI начальной загрузки согласуются с точными CI, хотя для небольших выборок (N <20) они, как правило, немного либеральны (меньшие CI). Для достаточно больших образцов они практически одинаковы.
Это заставляет меня задуматься, есть ли веская причина не всегда использовать самозагрузку. Учитывая сложность оценки того, является ли распределение нормальным, и многочисленные подводные камни, стоящие за этим, представляется разумным не принимать решения и не сообщать о начальной загрузке CI независимо от распределения. Я понимаю мотивацию не использовать непараметрические тесты систематически, так как они имеют меньшую мощность, но мои моделирования показывают, что это не так для загрузочных КИ. Они еще меньше.
Подобный вопрос, который меня беспокоит, заключается в том, почему не всегда использовать медиану как меру центральной тенденции. Люди часто рекомендуют использовать его для характеристики не нормально распределенных данных, но, поскольку медиана совпадает со средним значением для нормально распределенных данных, зачем проводить различие? Было бы весьма полезно, если бы мы могли избавиться от процедур, позволяющих решить, является ли распределение нормальным или нет.
Мне очень любопытно, что вы думаете по этим вопросам и обсуждались ли они ранее. Ссылки будут высоко оценены.
Благодарность!
пьер