Проверка гипотез сродни проблеме классификации. Так, скажем, у нас есть 2 возможных ярлыка для наблюдения (субъекта) - Виновен против Не виновен. Пусть Non-Guilty будет нулевой гипотезой. Если бы мы рассматривали проблему с точки зрения классификации, мы бы обучали классификатор, который предсказывал бы вероятность принадлежности субъекта к каждому из 2 классов с учетом данных. Затем мы выбрали бы класс с наибольшей вероятностью. В этом случае вероятность 0,5 будет естественным порогом. Мы могли бы изменить порог в случае, если мы установили разные затраты на ошибки «Ложно положительный» или «Ложно отрицательный». Но редко бы мы пошли настолько экстремально, как установление порога в 0,05, то есть присвоение субъекту класса «виновный», только если вероятность составляет 0,95 или выше. Но если я хорошо понимаю, это то, что мы делаем в качестве стандартной практики, когда рассматриваем ту же проблему, что и проблема проверки гипотез. В этом последнем случае мы не будем присваивать метку «Невиновный», что эквивалентно присвоению метки «Виновен», только если вероятность того, что он не виновен, составляет менее 5%. И, возможно, это может иметь смысл, если мы действительно хотим избежать осуждения невинных людей. Но почему это правило должно преобладать во всех доменах и во всех случаях?
Решение о том, какую гипотезу принять, эквивалентно определению Оценщика Истины с учетом Данных. В оценке максимального правдоподобия мы принимаем гипотезу, которая более вероятна с учетом данных - не обязательно, хотя в подавляющем большинстве случаев более вероятна. Смотрите график ниже:
Используя подход максимального правдоподобия, мы предпочли бы альтернативную гипотезу в этом примере, если бы значение предиктора было больше 3, например 4, хотя вероятность того, что это значение было получено из нулевой гипотезы, была бы больше 0,05.
И хотя пример, с которого я начал пост, возможно, эмоционально насыщен, мы могли бы подумать о других случаях, например о техническом улучшении. Почему мы должны дать такое преимущество статус-кво, когда данные говорят нам, что вероятность того, что новое решение является улучшением, больше, чем вероятность того, что это не так?