Почему утверждается, что выборка часто является более точной, чем перепись?


13

Изучая курс выборки, я встречаю следующие два утверждения:

1) Ошибка выборки приводит к большей изменчивости, ошибки выборки приводят к смещению.

2) Из-за ошибки несэмплирования выборка часто является более точной, чем CENSUS.

Я не знаю, как понять эти два утверждения. Какова основная логика для получения этих двух утверждений?


5
Истинная перепись или попытка один?
кардинал

Ответы:


16

Выборка может быть более точной, чем (попытка) переписи, если факт проведения переписи является отклонением от ошибки, не связанной с выборкой. Это может произойти, например, если в результате переписи будет проведена неблагоприятная политическая кампания, пропагандирующая отсутствие ответа (что-то реже случается с выборкой). Если это не произойдет, я не могу понять, почему в выборке будет меньше ошибок выборки, чем при переписи; и по определению он будет иметь больше ошибок выборки. Таким образом, помимо весьма необычных обстоятельств, я бы сказал, что перепись будет более точной, чем выборка.

Рассмотрим общий источник ошибок несоответствия - систематическое отсутствие ответа, например, определенной социально-демографической группой. Если люди из группы X могут отказаться от переписи, они также могут отказаться от выборки. Даже при использовании постстратификационной выборки для взвешивания ответов тех людей из группы X, которых вы действительно уговариваете ответить на ваши вопросы, у вас все еще есть проблема, потому что это может быть тот самый сегмент X, который является про-опросом. Нет реальной возможности обойти эту проблему, кроме как быть максимально осторожным с дизайном инструмента и способом доставки.

Попутно это привлекает внимание к одной возможной проблеме, которая может сделать попытку переписи менее точной, чем выборка. Образцы обычно имеют посттратификационный вес для населения, что уменьшает проблемы смещения из-за проблем, подобных тем, которые были в моем параграфе выше. Попытка переписи, которая не дает 100% возврата, является большой выборкой, и в принципе должна подвергаться той же обработке; но поскольку это рассматривается как «перепись» (а не как попытка переписи), этим можно пренебречь. Таким образом, эта перепись может быть менее точной, чем надлежащим образом взвешенная выборка. Но в этом случае проблема заключается в аналитической обработке (или упущении), а не в том, что она является попыткой проведения переписи.

Эффективность - это другое дело, как говорит Мишель, хорошо проведенная выборка будет более эффективной, чем перепись, и она вполне может иметь достаточную точность для практических целей.


1
+1 Это отражает вдумчивые и информативные усилия, чтобы понять вопрос и то, что мотивирует его.
whuber

Я думаю, что разница между выборкой и неполной переписью заключается не только в более высокой склонности взвешивать ответы в выборке. В конце концов, взвешенные цифры должны быть откуда-то - перепись или выборка более высокого качества.
Джонатан

Я бы действительно подчеркнул способность минимизировать непредвзятость в выборке. Очень немногие переписи имеют возможность эффективно реагировать на непредвзятость - даже борьба за перепись в США. Возможно, единственные, кто может сделать это хорошо, - это исследования удовлетворенности сотрудников. Гораздо эффективнее обходить без ответа в выборочном опросе.
Джонатан

При проведении переписи может быть (будет) дорогостоящий контроль качества каждого интервью / ...! Очень часто качество данных в выборке будет лучше, чем при переписи.
kjetil b halvorsen

5

Я думаю, что есть практические ситуации, когда образец может быть более точным. Например, мы провели исследование в городе в развивающейся стране, где много людей живут в незарегистрированных местах, люди постоянно приходят и уходят и стесняются отвечать. Попытка действительно провести перепись потребовала бы Геркулесовых усилий, и, учитывая наши ресурсы, это должно было быть сделано в течение пары месяцев, когда люди приходили и уходили. Используя образец, мы могли бы потратить больше времени на то, чтобы получить максимально возможный отклик - потому что мы могли бы объяснить, что мы делаем, - и мы могли бы сделать это в гораздо более короткие сроки, что избавило бы от проблемы. людей, въезжающих и покидающих город.

Так что я думаю, что ответ зависит больше от логистики того, что вы делаете, и от различных источников ошибок, не связанных с выборкой.

На самом деле, другой источник состоял в том, что наш опрос был сложным, и нам пришлось обучать интервьюеров, а найти и финансировать достаточно обучаемых интервьюеров в этой стране было бы очень сложно.


5

При выборке людей для опросов выборки часто страдают как от ошибки выборки (мы только получаем оценки), так и от ошибки выборки (например, люди отказываются отвечать на опрос, не отбирая выборку в рамках выборки, которые необходимы из-за практических соображений, таких как стоимость, или невозможность точно определить популяцию, чтобы сделать выборку). Сделано правильно, с высокой частотой ответов, выборка более эффективна, чем перепись. Но неверно полагать, что ни один из образцов не содержит ошибки несэмплирования.


+1. Спасибо за ваш ответ, Мишель, и добро пожаловать в наше сообщество!
whuber

1
Привет, да, приятно быть здесь. Спасибо за прием. :)
Мишель

1
@ Мишель Просто небольшое исправление. Ошибка выборки - это ошибка, которая возникает из-за не выбора всей совокупности, то есть ошибка из-за использования выборки для определения характеристик совокупности. Ошибка без выборки - это все остальное, включая отсутствие ответа, неспособность создать адекватный кадр выборки, ошибки измерения и т. Д.
Бретт,

3

Я думаю, что они ключевой в ответе Питера Эллиса: «попытка». Когда вы делаете выборку должным образом, вы попадаете в детали отсутствия ответов, выясняете страты, выискиваете их и т. Д. Когда вы решаете провести перепись, эти вопросы легко игнорировать, поскольку вы получаете «всех». Проблема в том, что вы, вероятно, не получаете всех, но вы не думаете о том, кого вы на самом деле не получаете.

Существуют также статистические проблемы с чрезвычайно большими выборками (как доля от выборочной совокупности). Я недостаточно опытен, чтобы понимать их, но, как минимум, у вас есть проблемы с вычислениями отклонений. (Такие пакеты, как R, surveyкомпенсируют такие вещи в больших группах населения опроса, и именно здесь я впервые узнал об этом.)

В качестве вторичной проблемы, если ошибка, не связанная с выборкой, включает в себя проблемы, связанные с контролем качества на различных этапах процесса, то при наличии огромного количества данных (переписи) будет намного сложнее иметь уровень контроля качества, который был бы у вас (с тем же ресурсы) на меньшем наборе данных (образец).

Представьте, если бы у вас были ресурсы (финансовые и кадровые), которые Бюро переписи населения США использовало для переписи, но вы проводили опрос только 1000 случайных взрослых. Я думаю, что у вас будет намного лучший контроль качества и гораздо лучший анализ связанных вопросов и самих данных.


2

Я подумал, что причина выборки может быть (а не) более точной, чем перепись на самом деле имеет один компонент, который относится к характеру переписи по сравнению с выборкой, и который может быть отнесен к причине переписи, которая может иметь большую предвзятость (очевидно, без выборки по определению): при переписи численность населения обычно неизвестна. Таким образом, свести к минимуму или контролировать смещение без ответа гораздо сложнее, чем с выборкой известного размера.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.