Грубый ответ на этот вопрос заключается в том, что 95% доверительный интервал позволяет вам на 95% быть уверенным, что истинное значение параметра находится в пределах этого интервала. Тем не менее, этот грубый ответ является неполным и неточным.
Неполнота заключается в том, что не ясно, что «95% уверенности» означает что-то конкретное, или, если это так, то этот конкретный смысл не будет универсально согласован даже небольшой выборкой статистиков. Значение доверия зависит от того, какой метод использовался для получения интервала и какая модель логического вывода используется (что, я надеюсь, станет более понятным ниже).
Неточность заключается в том, что многие доверительные интервалы не предназначены для того, чтобы сообщать вам что-либо о местонахождении истинного значения параметра для конкретного экспериментального случая, который дал доверительный интервал! Это будет удивлять многих, но это следует непосредственно из философии Неймана-Пирсона, которая четко изложена в этой цитате из их статьи 1933 года «О проблеме наиболее эффективных проверок статистических гипотез»:
Мы склонны считать, что в отношении конкретной гипотезы ни один тест, основанный на теории вероятностей, сам по себе не может предоставить какого-либо ценного доказательства истинности или ложности этой гипотезы.
Но мы можем взглянуть на цель тестов с другой точки зрения. Не надеясь узнать, является ли каждая отдельная гипотеза истинной или ложной, мы можем искать правила, управляющие нашим поведением по отношению к ним, следуя которым мы заверяем, что в долгом опыте мы не будем слишком часто ошибаться.
Таким образом, интервалы, основанные на «инверсии» тестов гипотез NP, будут наследовать от этого теста природу известных долгосрочных свойств ошибок, не позволяя сделать вывод о свойствах эксперимента, который их дал! Насколько я понимаю, это защищает от индуктивного вывода, который, по-видимому, Нейман считал мерзостью.
Нейман явно претендует на термин «доверительный интервал» и на происхождение теории доверительных интервалов в своей статье 1941 года «Биометрика» «Доверительный аргумент и теория доверительных интервалов». Таким образом, в некотором смысле все, что является доверительным интервалом, воспроизводится по его правилам, и поэтому значение отдельного интервала может быть выражено только в терминах долгосрочной скорости, с которой интервалы, рассчитанные этим методом, содержат (охватывают) соответствующую значение параметра.
Теперь нам нужно раскошелиться на обсуждение. Одна нить следует за понятием «охват», а другая следует за ненеймановскими интервалами, которые подобны доверительным интервалам. Я отложу первый, чтобы закончить этот пост, пока он не стал слишком длинным.
Существует много разных подходов, которые дают интервалы, которые можно назвать ненеймановскими доверительными интервалами. Первым из них являются доверительные интервалы Фишера. (Слово «опознавательный» может напугать многих и вызвать насмешливые ухмылки от других, но я оставлю это в стороне ...) Для некоторых типов данных (например, нормальных с неизвестной дисперсией населения) интервалы, рассчитанные по методу Фишера, численно идентичны интервалы, которые будут рассчитаны по методу Неймана. Тем не менее, они предлагают толкования, которые диаметрально противоположны. Неймановские интервалы отражают только долгосрочные свойства покрытия метода, тогда как интервалы Фишера предназначены для поддержки индуктивного вывода относительно истинных значений параметров для конкретного проведенного эксперимента.
Тот факт, что один набор интервальных границ может быть получен из методов, основанных на любой из двух философски различных парадигм, приводит к действительно запутанной ситуации - результаты могут быть интерпретированы двумя противоречивыми способами. Исходя из доверия, 95% вероятности того, что конкретный 95% доверительный интервал будет содержать истинное значение параметра. Из метода Неймана мы знаем только то, что 95% интервалов, рассчитанных таким образом, будут содержать истинное значение параметра, и должны сказать, что вводит в заблуждение вероятность того, что интервал, содержащий истинное значение параметра, неизвестен, но либо 1, либо 0.
В значительной степени подход Неймана господствовал над подходом Фишера. Это, на мой взгляд, весьма прискорбно, потому что это не приводит к естественной интерпретации интервалов. (Перечитайте цитату выше от Неймана и Пирсона и посмотрите, соответствует ли она вашей естественной интерпретации экспериментальных результатов. Скорее всего, нет.)
Если интервал можно правильно интерпретировать в терминах глобальных коэффициентов ошибок, а также в терминах локальных логических выводов, я не вижу веской причины запрещать пользователям интервалов более естественную интерпретацию, предоставляемую последним. Таким образом, я предполагаю, что правильная интерпретация доверительного интервала является ОБА из следующих:
Neymanian: этот 95% интервал был построен методом, который дает интервалы, которые покрывают истинное значение параметра в 95% случаев в долгосрочной перспективе (... из нашего статистического опыта).
Fisherian: этот 95% интервал имеет 95% вероятность покрытия истинного значения параметра.
(Байесовские методы и методы правдоподобия также дадут интервалы с желаемыми частотными свойствами. Такие интервалы предполагают немного разные интерпретации, которые, вероятно, будут более естественными, чем неймановские.)