Является ли «каждый синий футболка» систематическим образцом?


17

Я преподаю вводный класс статистики и изучал типы выборки, в том числе систематическую выборку, где вы выбираете каждую k-ю особь или объект.

Студент спросил, будет ли выборка каждого человека с определенной характеристикой выполнять то же самое.

Например, будет ли выборка каждого человека с синей футболкой достаточно случайной и достаточно ли будет репрезентативной для всего населения? По крайней мере, если вы задаете вопрос, отличный от "Какого цвета футболка вы предпочитаете носить?" У меня нет смысла, но я подумал, есть ли у кого-нибудь мысли по этому поводу.


12
Нет. Если бы вы жили в Глазго, Шотландия, тогда большинство людей, которые носят «голубую футболку», вероятно, были бы сторонниками рейнджеров . Вы бы пропали на кельтских сторонников. В Глазго футбольная команда будет доверять религии.
csgillespie

1
@csgillespie Прекрасный пример!
whuber

Кроме того, вы можете получить больше мальчиков, чем девочек, потому что в западной культуре синий ассоциируется с мужчиной
Роланд Кофлер,

Цветные футболки дороже, чем белые футболки, и не все дизайны подходят для всех цветов. Таким образом, даже если это может показаться невинным, даже среди тех, кто носит футболки, вы можете выбирать более состоятельных людей, более импульсивных потребителей или людей, которые поддерживают определенную политическую партию.
Дуглас Заре

Существует также связь между возрастом и ношением футболок, культурным прошлым и ношением футболок и так далее.
Glen_b

Ответы:


22

Ответ, в общем, на ваш вопрос "нет". Получение случайной выборки из популяции (особенно людей) является общеизвестно трудным делом. Обусловливая определенную характеристику, вы по определению не получаете случайную выборку. Сколько предвзятости это вносит - это совсем другое дело.

В качестве слегка абсурдного примера, вы не захотите попробовать этот пример, скажем, на футбольном матче между «медведями» и «упаковщиками», даже если ваше население было «футбольными фанатами». (У фанатов медведей могут быть другие характеристики, чем у других футбольных фанатов, даже если интересующее вас количество может не иметь прямого отношения к футболу.)

Есть много известных примеров скрытого смещения, возникающего при получении образцов таким способом. Например, на недавних выборах в США, на которых проводились телефонные опросы, считается, что в выборке недопредставлены (возможно, значительно) люди, владеющие только мобильным телефоном и не имеющим стационарного телефона. Поскольку эти люди, как правило, в основном моложе, чем те, у кого есть стационарные телефоны, получается необъективная выборка. Кроме того, молодые люди имеют совершенно разные политические убеждения, чем пожилые люди. Итак, это простой пример случая, когда, даже когда образец не был преднамеренно обусловлен какой-либо конкретной характеристикой, он все же происходил таким образом. И, хотя опрос не имел ничего общего либо условной характеристики (либо независимо от того, использует ли человек наземную линию связи), влияние характеристики кондиционирования на выводы опроса было значительным, статистически и практически.


6

Пока распределение признака, который вы используете для выбора единиц в выборке, ортогонально распределению признака совокупности, которую вы хотите оценить, вы можете получить объективную оценку количества совокупности, обусловив выбор на ней. Выборка не является строго случайной выборкой. Но люди склонны упускать из виду, что случайные выборки хороши, потому что случайная величина, используемая для отбора единиц в выборку, ортогональна распределению характеристики популяции, а не потому, что она случайная.

Просто подумайте о случайном рисовании Бернулли с P (invlogit (x_i)), где x_i в [-inf, inf] - это особенность единицы i, такая что Cov (x, y)! = 0, а y - характеристика популяции, у которой значит ты хочешь оценить. Выборка является «случайной» в том смысле, что вы рандомизируете перед выбором в выборку. Но выборка не дает объективной оценки среднего значения y для населения.

То, что вам нужно, это обусловить выбор в выборку по переменной, которая так же хороша, как и случайное присвоение . Т.е. это ортогонально переменной, от которой зависит количество процентов. Рандомизация хороша, потому что она обеспечивает ортогональность, а не сама рандомизация.


4
Это правильно, но как вы узнали бы, что оно было ортогональным, если у вас не было действительно случайной выборки?
Питер Флом - Восстановить Монику
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.