Имеет ли смысл рассчитывать доверительные интервалы и проверять гипотезы, когда доступны данные по всей совокупности?


10

Имеет ли смысл рассчитывать доверительные интервалы и проверять гипотезы, когда доступны данные по всей совокупности? На мой взгляд, ответ - нет, поскольку мы можем точно рассчитать истинные значения параметров. Но тогда, какова максимальная доля данных от первоначального населения, которая позволяет нам использовать вышеупомянутые методы?


3
Если вы используете правильные методы конечной выборки, дисперсия обнуляется так же, как ваша выборка достигает размера популяции. То есть, нет максимального размера; правильные формулы работают , как они должны, вплоть до . Nзнак равноN
Glen_b

Я думаю, что вы должны сформулировать это более четко, если вопрос касается случая «выборка = популяция» или «выборка из конечной совокупности».
ttnphns

Первая часть вопроса касается выборки = популяции, а вторая - выборки из популяции (когда размер выборки <размер популяции).
Мирослав Сабо

Ответы:


9

Первый вопрос - это вопрос, на который нет общепринятого ответа. Мое собственное мнение похоже на ваше, но другие утверждают, что популяция может рассматриваться как выборка из «сверхпопуляции», где точная природа сверхпопуляции варьируется в зависимости от контекста: например, перепись всех людей, живущих в здание можно рассматривать как образец от всех людей, живущих в похожих зданиях; Перепись населения США (не та, которую можно было бы когда-либо составить по-настоящему полной) можно рассматривать как выборку из сверхпопуляции американцев, которые могут когда-нибудь существовать (или что-то в этом роде). Я думаю, что это часто оправдывает использование p-значений; многим ученым в предметных областях неудобно, если у них нет p-значения. (Но это мое мнение).

Второй вопрос кажется немного странным, чтобы ответить в общем виде. Когда вы получаете образец, который, скажем, составляет более половины населения?

Более серьезной проблемой будет предвзятость. Возвращаясь к переписи населения США, проблема не просто в том, что он скучает по людям, а в том, что люди, которых он пропускает, не являются случайной выборкой из общей численности населения; Таким образом, даже если перепись получит ответы от (для выбора числа) 95% всех людей, если эти 5% будут сильно отличаться, результаты будут предвзятыми.


1
Я думаю, будет ли вы рассчитывать доверительные интервалы для статистики популяции, зависит от того, хотите ли вы сделать выводы о фактической популяции или для гипотетической «суперпопуляции». На прошлой работе в государственном департаменте здравоохранения мы сообщали о ежегодных статистических данных, таких как очень низкий процент веса при рождении и уровень самоубийств, которые колебались от года к году. Да, мы отчитывались по всему населению, но было бы глупо зависеть от прогресса (и финансирования) государства в области здравоохранения при каждом увеличении или уменьшении этих и других показателей здоровья в качестве полного изменения здоровья населения.
RobertF

7

Предположим, что только 2 из 12 членов комитета - женщины.

Пропорция может быть принята как статистическая характеристика всего населения (комитета). Возможно, что-то должно быть сделано, чтобы исправить дисбаланс, независимо от того, как он возник.16

Или это может быть взято как оценка вероятности выбора женщины в комитет - свойство процесса отбора. Вы можете установить доверительные интервалы вокруг него, проверить, значительно ли он отличается от половины (или другой соответствующей нулевой гипотезы), и так далее. Возможно, процесс должен быть изменен, чтобы сделать его справедливым.

Два взгляда, описательный и логический, не противоречат друг другу, но совершенно различны.

Ответ на второй вопрос заключается в том, что имеет смысл рассчитывать доверительные интервалы и проверять гипотезы о параметре совокупности, даже если выборка проводится только для одного человека. Просто отметьте, что КИ и тесты должны учитывать значительную часть выборочной совокупности : см. Окончательную коррекцию совокупности .

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.