Что если ваша случайная выборка явно не репрезентативна?

Что делать, если вы берете случайную выборку и видите, что она явно не репрезентативна, как в недавнем вопросе . Например, что, если предполагается, что распределение населения симметрично относительно 0, а выборка, которую вы выбираете случайным образом, имеет несбалансированные положительные и отрицательные наблюдения, а разбаланс является статистически значимым, что вас оставляет? Какие разумные утверждения вы можете сделать о населении на основе предвзятой выборки? Каков разумный порядок действий в такой ситуации? Имеет ли значение, когда в нашем исследовании мы замечаем этот дисбаланс?

— Джоэл В.
источник

Майкл, эта проблема может возникнуть один раз в 20, если мы используем статистическую значимость в качестве нашей метрики. Чаще всего мы не знаем, когда мы случайно выбрали нерепрезентативную выборку, потому что мы недостаточно знаем о населении. Но когда мы что-то знаем о населении и замечаем такую аномалию, что мы делаем?

— Джоэл В.

Да, самая правильная практика - это получить достаточно большую случайную выборку, как писал @MichaelChernick. Однако один из моих профессоров сказал мне, что он подтвердил с помощью моделирования Монте-Карло, что, когда исследователь должен увеличить размер выборки, не очень правильно просто добавлять статистические единицы к выборке, но нужно повторить выборку. В противном случае статистика может быть предвзятой (еще раз!).

— this.is.not.a.nick

@ Майкл, я не понимаю, почему твое утверждение верно. Значение p меньше 0,05 будет иметь место при нулевой гипотезе 5% времени независимо от размера выборки. Так как же возможно, что большие размеры выборки решат эту проблему? Мне кажется, что ваша рекомендация неявно призывает читателей путать размеры и силу тестов гипотез.

— whuber

@ Майкл, что ты имеешь в виду, что мы должны собирать больше данных наугад? Должны ли мы надеяться, что случайным образом выберем образец, смещенный в другом направлении? В любом случае, какое количество дополнительных случаев мы должны нарисовать? Вы предлагаете установить номер в начале или использовать правило остановки? Если правило остановки, как оно может выглядеть? Наконец, даже если полученная большая выборка не имеет статистически значимого отклонения, мы знаем, что она состоит из двух выборок, одна с смещением, а другая - без. Какие разумные утверждения вы можете сделать о населении на основе такой сложной выборки?

— Джоэл В.

@Michael Альтернативный вывод заключается в том, что очень значительный, сильно искаженный образец указывает на проблему с процедурой отбора образцов. Если это так, отсутствие симметрии будет сохраняться в более крупной выборке.

— whuber

Ответы:

Ответ дается MLS (использование выборки значения) только так хорошо , как предположения вы можете сделать о своих дистрибутивах. Основная сила парадигмы выборки с конечной совокупностью заключается в том, что она непараметрическая, поскольку она не делает никаких предположений о распределении данных, чтобы делать (действительные) выводы о параметрах конечной совокупности.

Подход к исправлению выборочных дисбалансов называется пост-стратификацией . Вам необходимо разбить выборку на непересекающиеся классы (после-страты), а затем повторно взвесить эти классы в соответствии с известными показателями численности населения. Если известно, что в вашей популяции медиана равна 0, вы можете пересчитать положительные и отрицательные наблюдения, чтобы их весовые пропорции стали 50-50: если у вас был неудачный SRS с 10 отрицательными наблюдениями и 20 положительными наблюдениями, вы бы дали отрицательные вес 15/10 = 1,5 и положительные 15/20 = 0,75.

Существуют более тонкие формы калибровки образца , в которых вы можете калибровать образец для удовлетворения более общих ограничений, таких как наличие среднего значения непрерывной переменной, равного конкретному значению. С ограничением симметрии довольно сложно работать, хотя это тоже может быть выполнимо. Может быть, у Жан Опсомера есть что-то по этому поводу : он проделал большую работу по оценке ядра для данных опроса.

— Stask
источник

Как пост-стратификация сравнивается, логически или статистически, с простым отбрасыванием несбалансированного образца и получением другого образца? (Иногда отбор образца является трудоемкой частью исследования, но иногда это то, что делается после того, как вы взяли образец, который является трудоемким, а отбор образца требует относительно небольших усилий, как в большинстве экспериментальных исследований.)

— Джоэл В. .

Я никогда не был в ситуации, когда отбрасывание данных является лучшим ответом, и я никогда не видел, чтобы это обсуждалось ни в одной из статистических книг опроса. В большинстве статистических исследований получение данных по меньшей мере в пять раз обходится дороже, чем любая из следующих обработок и анализа данных (за исключением, вероятно, некоторых дешевых веб-опросов, где сбор данных практически бесплатный). Если вы находитесь в экспериментальном мире, вам не следует помечать свой пост «выборкой», а вместо этого использовать «дизайн эксперимента».

— StasK

Случайные выборки могут быть использованы, а не стратифицированы, потому что есть много возможных способов стратификации в реальных условиях. Может случиться, что после выбора двух случайных образцов для эксперимента вы заметите некоторый вопиющий дисбаланс. Тогда вы застряли между молотом и наковальней: живите с дисбалансом (например, все пожилые люди в одной группе, все не носители языка в одной группе, все доктора философии в одной группе и т. Д.) Или нарисуйте Новая выборка и ослабить связь между тем, что вы сделали, и предположениями всех статистических методов. Пост-стратификация, похоже, относится ко второму типу.

— Джоэл В.

Я являюсь младшим членом здесь, но я бы сказал, что отбрасывать и начинать сначала - это всегда лучший ответ, если вы знаете, что ваша выборка значительно непредставительна, и если у вас есть представление о том, как возникла непредставительная выборка в первую очередь и как избежать этого, если это возможно во второй раз.

Что хорошего в том, чтобы пробовать второй раз, если вы, вероятно, окажетесь в одной лодке?

Если повторный сбор данных не имеет смысла или является чрезмерно дорогостоящим, вам придется работать с тем, что у вас есть, пытаясь компенсировать нерепрезентативность посредством стратификации, вменения, модного моделирования или чего-либо еще. Вы должны четко отметить, что вы получили компенсацию таким образом, почему вы считаете это необходимым и почему вы думаете, что это сработало. Затем проработайте неопределенность, возникшую из вашей компенсации, на протяжении всего анализа. (Это сделает ваши выводы менее определенными, верно?)

Если вы не можете этого сделать, вам нужно полностью отказаться от проекта.

— Wayne
источник

Что, если вы не знаете, почему выборка не является репрезентативной, все еще оправдываете ли вы отказ от нее и получение новой случайной выборки? Если нет, то почему? Кроме того, допустим, что вы отбрасываете первый образец и рисуете второй. Является ли выводная статистика, которую вы можете рассчитать на основе второго образца, каким-либо образом неуместной из-за отброшенного первого образца? Например, если вы подписываетесь на отказ от непредставительных выборок, меняете ли вы распределение выборки, на котором основан ваш статистический тест? Если да, то вы облегчаете или усложняете поиск статистической значимости?

— Джоэл В.

@ Уэйн Хорошая идея.

— Субхаш С. Давар

$q$ $p$ $p$

$s_p = E \{ f(X) | X \sim p \}$ $s(p)$ $f$ $\{ x_1, \ldots, x_n \}$ $p$

s_{п} \approx \frac{1}{N} Σ_{я знак равно 1}^{N} е ({Икс}_{я}),

$s_p \approx \frac{1}{n} \sum_{i=1}^n f(x_i) \enspace.$

x_{i} \sim q

$x_i \sim q$

s_{p}

$s_p$

s_{п} \approx \frac{1}{N} Σ_{я знак равно 1}^{N} \frac{п ({Икс}_{я})}{Q ({Икс}_{я})} е ({Икс}_{я}),

$s_p \approx \frac{1}{n} \sum_{i=1}^n \frac{p(x_i)}{q(x_i)} f(x_i) \enspace.$

Е {\frac{п (Икс)}{Q (Икс)} е (Икс) | Икс ~ Q} знак равно \int п (Икс) е (Икс) d Икс,

$E \left\{ \frac{p(X)}{q(X)} f(X) \middle| X \sim q \right\} = \int p(X) f(X) dx \enspace,$

— Номер
источник

Вы говорите, что образец не смещен, и любая попытка исправить образец добавит смещение. Я полагаю, что процесс, с помощью которого был собран образец, не имеет предвзятости, но на самом деле образец является предвзятым, возможно, серьезно предвзятым. Существуют ли способы попытаться исправить известное большое смещение, которое, как можно ожидать, вводит относительно небольшое дополнительное смещение?

— Джоэл В.

Чтобы устранить неоднозначность терминологии: я думаю, что смещение - это свойство ожидания случайной величины. Другими словами, если процесс, который собирает данные, беспристрастен, то и выборка тоже. Тем не менее, образец может быть нетипичным и привести к нежелательным выводам. Любой общий способ исправить это вызывает смещение, так как вы адаптируете (несмещенную) процедуру выборки. Вероятно, менее предвзятый подход заключается в сборе и использовании новых образцов. Немного более предвзятый подход добавил бы эти новые выборки к старым, но результат мог бы быть менее переменным, так как у вас есть в общей сложности больше образцов.

— MLS

@ Джоэль В. Что ты имеешь в виду, когда говоришь, что выборка смещена? Это оценка среднего на основе выборки, которая смещена? Любая выборочная оценка будет отличаться от истинного среднего, а некоторые могут быть далеко. При случайной выборке это связано с отклонением, а не смещением. Неправильно говорить, что выборка смещена, поскольку известно, что распределение выборки сильно отличается от распределения по населению. В небольших выборках многие могут выглядеть непредставительными по той или иной причине, но случайная выборка не является предвзятой выборкой.

— Майкл Р. Черник

@ Майкл, я согласен, что мы должны распознавать и жить со случайной дисперсией, когда это необходимо. Я спрашиваю, что мы могли бы разумно сделать, когда мы обнаружим непреднамеренную дисперсию. Что, если окажется, что наша случайная выборка включает в себя слишком много молодых людей или слишком много синих воротничков и т. Д., Когда эти категории имеют отношение к нашему исследованию? Если пойти еще дальше, должны ли мы проверять наши образцы, чтобы увидеть, не разбалансированы ли они таким образом? И имеет ли значение, если мы заметим это до проведения дальнейших исследований с образцом или после того, как мы вложили ресурсы в проведение исследований с образцом?

— Джоэл В.

Ковариатный дисбаланс очень важен. Если он существует в образце, для его корректировки можно использовать регрессионную модель. Ванс Бергер написал книгу на эту тему, которую я, вероятно, цитировал ранее на этом сайте. Вот амазонка ссылка на описание книги. amazon.com/Selection-Covariate-Imbalances-Randomized-Statistics/…

— Майкл Р. Черник