Статистический вывод, когда выборка «является» населением


47

Представьте, что вы должны составлять отчеты о количестве кандидатов, которые ежегодно сдают данный тест. Кажется довольно сложным сделать вывод о наблюдаемом проценте успеха, например, для более широкой популяции из-за специфики целевой популяции. Таким образом, вы можете считать, что эти данные представляют все население.

Действительно ли результаты тестов показывают, что пропорции мужчин и женщин действительно правильны? Является ли тест, сравнивающий наблюдаемые и теоретические пропорции, правильным, поскольку вы рассматриваете целую популяцию (а не образец)?

Ответы:


31

На этот счет могут быть разные мнения, но я бы отнесся к демографическим данным как к выборке и предположил бы гипотетическую популяцию, а затем сделал бы выводы обычным способом. Один из способов думать об этом заключается в том, что существует основной процесс генерации данных, отвечающий за собранные данные, распределение «населения».

В вашем конкретном случае это может иметь еще больший смысл, поскольку в будущем у вас будут когорты. Тогда ваше население - это действительно когорты, которые сдают тест даже в будущем. Таким образом, вы можете учесть вариации на основе времени, если у вас есть данные более года, или попытаться учесть скрытые факторы с помощью вашей модели ошибок. Короче говоря, вы можете разрабатывать более богатые модели с большей объяснительной силой.


4
Только что натолкнулся на этот пост от A Gelman, Чем отличается статистический анализ при анализе всего населения, а не выборки? , j.mp/cZ1WSI . Хорошая отправная точка для расхождения во взглядах на понятие «сверхпопуляция».
ЧЛ

2
@chl: интересно - напоминает мне, что Гельман обсуждал вывод о конечности / суперпопуляции, сравнимый с фиксированными / случайными эффектами, в своей статье о ANOVA [ stat.columbia.edu/~gelman/research/published/econanova3.pdf ].
АРС

+1 Я только что вернулся к этому снова (через гугл). Я думаю, что ваш ответ на месте.
Шейн

25

На самом деле, если вы действительно уверены, что у вас есть все население, вам даже не нужно вдаваться в статистику. Тогда вы точно знаете, насколько велика разница, и нет никаких оснований для того, чтобы больше ее проверять. Классическая ошибка - использование статистической значимости в качестве «соответствующей» значимости. Если вы выбрали население, разница в том, что это такое.

С другой стороны, если вы переформулируете свою гипотезу, то кандидатов можно рассматривать как выборку возможных кандидатов, которая позволит провести статистическое тестирование. В этом случае вы будете тестировать в целом, отличаются ли мужчины и женщины от теста под рукой.

Как уже говорилось, вы можете использовать тесты нескольких лет и добавить время как случайный фактор. Но если вы действительно заинтересованы в различиях между этими кандидатами в этом конкретном тесте, вы не можете использовать обобщение, и тестирование бессмысленно.


15

Традиционно статистический вывод преподается в контексте вероятностных выборок и характера ошибки выборки. Эта модель является основой для проверки значимости. Однако есть и другие способы моделирования систематических отклонений от случайности, и оказывается, что наши параметрические (основанные на выборке) тесты, как правило, являются хорошим приближением к этим альтернативам.

Параметрические проверки гипотез полагаются на теорию выборки для получения оценок вероятной ошибки. Если выборка данного размера берется из популяции, знание систематического характера выборки делает тестирование и доверительные интервалы значимыми. Для популяции теория выборки просто не актуальна, а тесты не имеют смысла в традиционном смысле. Вывод бесполезен, нечего выводить, есть только вещь ... сам параметр.

Некоторые обходят это, обращаясь к суперпопуляциям, которые представляет текущая перепись. Я считаю эти обращения неубедительными - параметрические тесты основаны на вероятностной выборке и ее характеристиках. Популяция в данный момент времени может быть выборкой большей популяции во времени и месте. Тем не менее, я не вижу способа, чтобы можно было обоснованно утверждать, что это случайная (или, в более общем случае, любая форма вероятностной) выборки. Без вероятностной выборки теория выборки и традиционная логика тестирования просто не применимы. С таким же успехом вы можете протестировать на основе удобного образца.

Ясно, что для того, чтобы принять тестирование при использовании совокупности, нам нужно отказаться от основы этих тестов в процедурах отбора проб. Один из способов сделать это - распознать тесную связь между нашими теоретико-выборочными тестами, такими как t, Z и F, и процедурами рандомизации. Рандомизационные тесты основаны на имеющейся выборке. Если я собираю данные о доходах мужчин и женщин, вероятностная модель и основа для наших оценок ошибок - это повторяющиеся случайные распределения фактических значений данных. Я мог бы сравнить наблюдаемые различия между группами с распределением на основе этой рандомизации. (Кстати, мы делаем это все время в экспериментах, где случайная выборка из популяционной модели редко подходит).

Теперь оказывается, что теоретико-выборочные тесты часто являются хорошими приближениями рандомизированных тестов. Таким образом, в конечном счете, я думаю, что тесты от групп населения полезны и значимы в этой структуре и могут помочь отличить систематическое от случайного отклонения - как и в случае тестов на основе выборок. Используемая для этого логика немного отличается, но она не сильно влияет на практическое значение и использование тестов. Конечно, может быть лучше просто использовать рандомизацию и тесты перестановок напрямую, учитывая, что они легко доступны со всеми нашими современными вычислительными возможностями.


3
+1 за разумное обсуждение; несколько очков, хотя. Инференциальный механизм недоступен для анализа популяции, но во многих случаях моделирования я бы задал вопрос, есть ли у кого-нибудь данные о населении, с которых можно начинать, - часто не очень трудно пробить дыры. Так что это не всегда обращение к суперпопулярности в качестве средства для вывода. Вместо «суперпопуляции» лучший способ состоит в том, чтобы предположить процесс генерирования данных, дающий, например, межгодовые тестовые данные о когортах. Вот где возникает стохастическая составляющая.
АРС

2
Я не думаю, что здесь есть какие-либо разногласия, за исключением отсутствия логического механизма для анализа населения. Рандомизационные тесты применимы к группам населения и могут обоснованно проверить, вероятен ли процесс генерирования данных из-за случайного генерирующего процесса по сравнению с систематическим генерирующим процессом. Они не предполагают случайную выборку и являются скорее прямым тестом случайности по сравнению с систематическим изменением. Наши традиционные тесты оказываются достаточно хорошими для них.
Бретт

Это правда в отношении "отсутствия логического механизма". Неосторожная формулировка с моей стороны, особенно потому, что мне понравилось то, что вы высказали по поводу рандомизированных тестов в своем ответе.
АРС

извиняюсь. Мне трудно понять, как я вычислю перестановки и какие выводы я смогу сделать для них.
pbneau

Является ли начальная загрузка верной альтернативой? Как при начальной загрузке не удается разрешить одно из этих предположений?
Чернофф

3

Предположим, что результаты показывают, что кандидаты различаются по признаку пола. Например, доля тех, кто прошел тесты, выглядит следующим образом: 40% женщин и 60% мужчин. Чтобы предположить очевидное, 40% отличается от 60%. Теперь важно решить: 1) интересующее вас население; 2) как ваши наблюдения относятся к интересующему населению. Вот некоторые подробности об этих двух проблемах:

  1. Если интересующая вас группа представляет собой только тех кандидатов, которых вы наблюдали (например, 100 кандидатов, подавших заявление в университет в 2016 году), вам не нужно сообщать о статистических тестах значимости. Это потому, что ваша группа интересов была полностью отобрана ... все, что вас волнует, это 100 кандидатов, по которым у вас есть полные данные. То есть 60% - это полная остановка, отличная от 40%. На вопрос, на который он отвечает, были ли гендерные различия в популяции из 100 человек, которые применяли программу? Это описательный вопрос, и ответ - да.

  2. Однако многие важные вопросы касаются того, что произойдет в разных условиях. То есть многие исследователи хотят придумать тенденции прошлого, которые помогают нам предсказывать (а затем планировать) будущее. В качестве примера можно привести вопрос: насколько вероятно, что будущие тесты кандидатов будут отличаться по признаку пола? Население, представляющее интерес, тогда шире, чем в сценарии № 1 выше. На данный момент, важный вопрос, который нужно задать: является ли ваши наблюдаемые данные репрезентативными для будущих тенденций? Это логичный вопрос, и на основании информации, предоставленной оригинальным постером, ответ таков: мы не знаем.

В целом, какие статистические данные вы сообщаете, зависит от типа вопроса, на который вы хотите ответить.

Размышление о базовом дизайне исследования может быть наиболее полезным (попробуйте здесь: http://www.socialresearchmethods.net/kb/design.php ). Размышление о суперпопуляциях может помочь, если вам нужна более подробная информация (вот статья, которая может помочь: http://projecteuclid.org/euclid.ss/1023798999#ui-tabs-1 ).


2

Если вы считаете все, что вы измеряете, случайным процессом, тогда да, статистические тесты актуальны. Взять, к примеру, подбрасывание монеты 10 раз, чтобы увидеть, честно ли это. Вы получаете 6 голов и 4 хвоста - что вы делаете?


1
Я не очень понимаю, как вы пришли к выводу о подбрасывании монеты в связи с заданным вопросом. Может быть, вы могли бы немного рассказать об этом? Статистические тесты, по-видимому, имеют отношение к той степени, в которой они помогают выводить наблюдаемые результаты для большей популяции, будь то справочная или общая популяция. Здесь возникает вопрос: учитывая, что выборка близка к популяции тестируемых в течение фиксированного периода времени (здесь, один год), является ли классический вывод правильным способом принятия решения о возможных различиях на индивидуальном уровне?
ЧЛ

1
@chl Да, но, похоже, ОП пытается определить основную вероятность успеха. Тесты сравнивают наблюдаемые пропорции с теоретическим распределением, чтобы определить, есть ли разница для данного уровня достоверности. Вы проверяете любую форму случайности, а не только случайную ошибку выборки.
Джеймс
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.