Морей и др. (2015) утверждают, что доверительные интервалы вводят в заблуждение, и существует много предубеждений, связанных с их пониманием. Среди прочего, они описывают ошибку точности следующим образом:
Ошибка точности
Ширина доверительного интервала указывает на точность наших знаний о параметре. Узкие доверительные интервалы показывают точное знание, в то время как большие доверительные ошибки показывают неточные знания.Не существует необходимой связи между точностью оценки и размером доверительного интервала. Один из способов увидеть это - представить, что два исследователя - старший научный сотрудник и аспирант - анализируют данные участников эксперимента. В качестве упражнения для выгоды аспиранта старший исследователь решает случайным образом разделить участников на два набора по чтобы каждый из них мог отдельно анализировать половину набора данных. В одном из последующих заседаний, два поделиться друг с другом их Ученические доверительные интервалы для среднего значения. КИ аспиранта составляет , а КИ старшего научного сотрудника - .25 т 95 % 52 ± 2 95 % 53 ± 4
Старший исследователь отмечает, что их результаты в целом согласуются, и что они могут использовать одинаково взвешенное среднее их двух соответствующих точечных оценок, , в качестве общей оценки истинного среднего.
Аспирант, однако, утверждает, что их два средства не должны быть равномерно взвешены: она отмечает, что ее КИ вдвое меньше, и утверждает, что ее оценка является более точной и, следовательно, должна быть взвешена более тяжело. Ее советник отмечает, что это не может быть правильным, потому что оценка от неравномерного взвешивания двух средних будет отличаться от оценки от анализа полного набора данных, который должен быть . Ошибка аспиранта заключается в том, что КИ напрямую указывают на точность данных.
Пример выше, кажется, вводит в заблуждение. Если мы случайным образом разделим выборку пополам на две выборки, то мы ожидаем, что средние значения выборки и стандартные ошибки будут близки. В таком случае не должно быть никакой разницы между использованием взвешенного среднего (например, взвешенного по обратным ошибкам) и использованием простого среднего арифметического. Однако, если оценки отличаются и ошибки в одной из выборок заметно больше, это может указывать на «проблемы» с такой выборкой.
Очевидно, что в приведенном выше примере размеры выборки одинаковы, поэтому «объединение» данных с использованием среднего значения равнозначно взятию среднего значения для всей выборки. Проблема состоит в том, что весь пример следует плохо определенной логике: сначала выборка делится на части, а затем снова соединяется для окончательной оценки.
Пример можно перефразировать, чтобы привести к совершенно противоположному выводу:
Исследователь и студент решили разделить свой набор данных на две половины и проанализировать их самостоятельно. После этого они сравнили свои оценки, и оказалось, что выборка означает, что их расчеты были очень разными, более того, стандартная ошибка оценки студента была намного выше. Студент боялся, что это может указывать на проблемы с точностью его оценки, но исследователь подразумевал, что нет никакой связи между доверительными интервалами и точностью, поэтому обе оценки одинаково заслуживают доверия, и они могут опубликовать любую из них, выбранную случайным образом, как их окончательная оценка.
Говоря более формально, «стандартные» доверительные интервалы, такие как Стьюдента , основаны на ошибках
где некоторая постоянная. В таком случае они напрямую связаны с точностью, не так ли?
Итак, мой вопрос: является
ли ошибка точности действительно ошибкой? Что говорят о точности доверительные интервалы?
Морей Р., Хукстра Р., Роудер Дж., Ли М. и Вагенмакерс Э.-Дж. (2015). Ошибка уверенности в доверительных интервалах. Psychonomic Bulletin & Review, 1–21. https://learnbayes.org/papers/confidenceIntervalsFallacy/