В своем исследовании я столкнулся со следующей общей проблемой: у меня есть два распределения и в одной и той же области и большое (но конечное) число выборок из этих распределений. Выборки независимо и идентично распределяются из одного из этих двух распределений (хотя распределения могут быть связаны: например, может быть смесью и некоторого другого распределения.) Нулевая гипотеза состоит в том, что выборки происходят из , альтернативная гипотеза состоит в том, что образцы происходят из .Q Q P P Q
Я пытаюсь охарактеризовать тип I и тип II ошибки в тестировании образца, зная распределения и . В частности, меня интересует , ограничивающая одну ошибку дали другой, в дополнение к знанию и .Q P Q
Я задал вопрос по математике, касающийся отношения расстояния между вариациями и к проверке гипотез, и получил ответ, который я принял. Этот ответ имеет смысл, но я до сих пор не смог сосредоточиться на более глубоком значении, лежащем в основе взаимосвязи общего отклонения расстояния и проверки гипотез, в том, что касается моей проблемы. Таким образом, я решил обратиться к этому форуму.Q
Мой первый вопрос: ограничена ли полная вариация суммой вероятностей ошибок типа I и типа II, независимо от используемого метода проверки гипотез? По сути, до тех пор, пока существует ненулевая вероятность того, что выборка могла быть сгенерирована любым из распределений, вероятность, по крайней мере, одной из ошибок должна быть ненулевой. По сути, вы не можете избежать возможности того, что ваш тестер гипотез допустит ошибку, независимо от того, сколько обработки сигналов вы делаете. И Total Variation ограничивает эту точную возможность. Правильно ли мое понимание?
Существует также другая связь между ошибками типа I и II и лежащими в их основе распределениями вероятности и : дивергенция KL . Таким образом, мой второй вопрос: является ли граница KL-дивергенции применимой только к одному конкретному методу проверки гипотез (кажется, что он часто встречается вокруг метода логарифмического отношения правдоподобия) или можно применять его в целом ко всем методам проверки гипотез? Если он применим ко всем методам проверки гипотез, то почему он так сильно отличается от границы общего отклонения? Это ведет себя по-другому?Q
И мой основной вопрос: есть ли предписанный набор обстоятельств, когда я должен использовать связанное, или это просто вопрос удобства? Когда результат должен быть получен с использованием одного связанного удержания с использованием другого?
Я прошу прощения, если эти вопросы тривиальны. Я ученый-компьютерщик (так что мне кажется, что это сложная проблема сопоставления с образцом :).) Я достаточно хорошо знаю теорию информации и также имею диплом по теории вероятностей. Тем не менее, я только начинаю изучать все эти вещи для проверки гипотез. При необходимости я сделаю все возможное, чтобы уточнить мои вопросы.