Мой вопрос можно перефразировать как «как оценить ошибку выборки с использованием больших данных», особенно для публикации в журнале. Вот пример, чтобы проиллюстрировать проблему.
Из очень большого набора данных (> 100 000 уникальных пациентов и их назначенных препаратов из 100 больниц) я заинтересовался оценкой доли пациентов, принимающих конкретное лекарство. Получить эту пропорцию просто. Его доверительный интервал (например, параметрический или загрузочный) невероятно узок / узок, потому что n очень велико. Хотя большая выборка удачна, я все еще ищу способ оценить, представить и / или визуализировать некоторые формы вероятностей ошибок. Хотя кажется бесполезным (если не вводящим в заблуждение) поставить / визуализировать доверительный интервал (например, 95% CI: .65878 - .65881), также невозможно избежать некоторых утверждений о неопределенности.
Пожалуйста, дай мне знать, что ты думаешь. Я был бы признателен за любую литературу на эту тему; способы избежать чрезмерной уверенности в данных даже при большом размере выборки.