Доверительные интервалы, когда размер выборки очень большой

14

Мой вопрос можно перефразировать как «как оценить ошибку выборки с использованием больших данных», особенно для публикации в журнале. Вот пример, чтобы проиллюстрировать проблему.

Из очень большого набора данных (> 100 000 уникальных пациентов и их назначенных препаратов из 100 больниц) я заинтересовался оценкой доли пациентов, принимающих конкретное лекарство. Получить эту пропорцию просто. Его доверительный интервал (например, параметрический или загрузочный) невероятно узок / узок, потому что n очень велико. Хотя большая выборка удачна, я все еще ищу способ оценить, представить и / или визуализировать некоторые формы вероятностей ошибок. Хотя кажется бесполезным (если не вводящим в заблуждение) поставить / визуализировать доверительный интервал (например, 95% CI: .65878 - .65881), также невозможно избежать некоторых утверждений о неопределенности.

Пожалуйста, дай мне знать, что ты думаешь. Я был бы признателен за любую литературу на эту тему; способы избежать чрезмерной уверенности в данных даже при большом размере выборки.

confidence-interval large-data reporting

— so2015
источник

7

Вы можете избежать чрезмерной уверенности, напомнив, что ошибки, не связанные с выборкой, остаются нетронутыми. Если при отборе и измерении имеются отклонения, они все еще присутствуют. Кроме того, независимо от того, учитываете ли вы уникальных (я бы сказал, «разных») пациентов или наблюдения, определенные каким-либо другим образом, существуют (я предполагаю) кластерные структуры, связывающие лекарства для одного и того же пациента и лекарства, которые вводятся вместе любым способом, который не учитываются простейшими расчетами доверительного интервала. У меня нет решений о том, как определить это количественно, помимо сравнения с другими наборами данных и документирования производства данных.

— Ник Кокс

10

Эта проблема возникла и в некоторых моих исследованиях (как разработчик модели эпидемии, я могу позволить себе роскошь создавать свои собственные наборы данных, и с достаточно большими компьютерами они могут иметь произвольный размер. Несколько соображений:

Что касается отчетности, я думаю, вы можете сообщить более точные доверительные интервалы, хотя польза от этого на законных основаниях немного сомнительна. Но это не так, и с наборами данных такого размера, я не думаю, что есть необходимость в том, чтобы оба отчета сообщали о доверительных интервалах, а потом жаловались, что мы все хотели бы, чтобы они были округлены до двух цифр и т. Д.
С точки зрения избежания самоуверенности, я думаю, что ключ должен помнить, что точность и аккуратность - это разные вещи, и избегать попыток сопоставить их. Когда у вас большая выборка, очень заманчиво понять, насколько точен оцениваемый эффект, и не думать, что он также может быть неправильным. Я думаю, что это ключ - смещенный набор данных будет иметь это смещение при N = 10, или 100, или 1000, или 100 000.

Основная цель больших наборов данных - предоставить точные оценки, поэтому я не думаю, что вам следует избегать этой точности. Но вы должны помнить, что вы не можете улучшить плохие данные, просто собирая большие объемы плохих данных.

— фомиты
источник

Я думаю, что большой объем плохих данных все же лучше, чем небольшой объем плохих данных.

— Аксакал почти наверняка бинарный

@Aksakal Почему? Точно неправильный ответ по-прежнему неверен.

— Fomite

@Fomite - да, но вы более уверены, что это неправильно :)

— Дункан

6

Эта проблема возникла в моих собственных рукописях.

1. Параметры отчетности: если у вас есть только один или несколько элементов конфигурации для отчета, то отчетность «(например, 95% CI: .65878 - .65881)» не является слишком многословной, и она подчеркивает точность CI. Тем не менее, если у вас есть многочисленные CI, то общее утверждение может быть более полезным для читателя. Например, я обычно сообщаю о чем-то, что «при таком размере выборки 95% доверительная погрешность для каждой пропорции была меньше +/- 0,010». Я обычно сообщаю о чем-то подобном в методе, или в заголовке таблицы или рисунка, или в обоих.

2. Предотвращение «чрезмерной уверенности» даже при большом размере выборки: при выборке 100 000 центральная предельная теорема обеспечит вам безопасность при составлении отчетов о КИ для пропорций. Таким образом, в описанной вами ситуации вы должны быть в порядке, если нет других нарушений допущений, о которых я не знаю (например, нарушил iid).

— Энтони
источник

0

Не сообщайте доверительные интервалы. Вместо этого сообщите точный размер выборки и пропорции. Читатель сможет рассчитывать свои собственные КИ так, как он пожелает.

— Аксакал почти наверняка бинарный
источник

4

Почему это самое рассуждение не должно применяться ко всей отчетности количественных данных?

— whuber

@ Whuber, хороший вопрос. Я все для воспроизводимых исследований, желаю, чтобы все опубликовали свои наборы данных.

— Аксакал почти наверняка бинарный

6

Я не хотел, чтобы это воспринималось как предложение. Даже если бы все опубликовали свои наборы данных, они бы отменили свои научные обязанности, если бы не предоставили их анализ - и это включает анализ неопределенности. Похоже, вы идете в направлении, которое логически закончится предположением, что ученые ничего не делают, кроме публикации данных, без анализа вообще! Это в конечном итоге является обвинительным заключением в отношении рекомендации не сообщать о КИ. Напротив, это указывает на то, что какой-либо статистический анализ следует предлагать в любом случае, независимо от размера выборки.

— whuber

0

Рассмотрим возможность того, что пропорции 100 разных больниц не сходятся к одному и тому же среднему значению. Вы проверяли на дисперсию между группами? Если между больницами существует ощутимая разница, то предположение о том, что выборки получены из общего нормального распределения, не поддерживается, и вам не следует их объединять.

Однако, если ваши данные действительно поступают из нормально распределенной большой выборки, то вы не найдете полезных «утверждений о неопределенности» как свойство данных, а при размышлении о том, почему или почему не следует обобщать вашу статистику - из-за некоторые присущие коллекции отклонения или отсутствие стационарности и т. д., на которые следует обратить внимание.

— Джон Марк
источник