Стандартная ошибка подсчета

14

У меня есть набор данных об инцидентах по сезонам редких заболеваний. Например, скажем, было 180 случаев весной, 90 летом, 45 осенью и 210 зимой. Я борюсь с тем, уместно ли прикреплять стандартные ошибки к этим числам. Цели исследования являются выводными в том смысле, что мы ищем сезонную картину заболеваемости, которая может повториться в будущем. Таким образом, интуитивно кажется, что должно быть возможно придать меру неопределенности итоговым значениям. Однако я не уверен, как можно вычислить стандартную ошибку в этом случае, поскольку мы имеем дело с простыми подсчетами, а не, например, со средними или пропорциями.

Наконец, будет ли ответ зависеть от того, представляют ли данные совокупность случаев (каждый случай, который когда-либо имел место) или случайную выборку? Если я не ошибаюсь, то, как правило, нет смысла представлять стандартные ошибки в статистике населения, так как нет никаких выводов.

poisson-distribution standard-error count-data

— Принимание
источник

Счет просто ненормированная пропорция, поэтому вы можете вычислить св. ошибка пропорции и «ненормализовать» ее на счетные единицы, если это имеет смысл для вас. Вы правы, что ул. Ошибка применима только к образцу. В популяции нет ошибок.

— ttnphns

14

Население - это (гипотетический) набор всех людей, которым грозит заболевание; как правило, он состоит из всех людей (или некоторой четко определяемой подгруппы людей), проживающих в районе исследования. Важно четко определить эту популяцию, поскольку она является целью исследования и всех выводов, сделанных на основе данных.

Когда случаи заболевания являются независимыми (что может быть разумной гипотезой, когда заболевание нелегко передается между людьми и не вызвано местными условиями окружающей среды), и они редки, тогда подсчет должен строго следовать распределению Пуассона . Для этого распределения хорошей оценкой его стандартного отклонения является квадратный корень из числа .

$(180, 90, 45, 210)$ $(13.4, 9.5, 6.7, 14.5)$ В этом случае фактическое количество заболеваний, наблюдаемых в течение сезона, будет отличаться от этого фактического показателя. Квадратный корень истинной (но неизвестной!) Нормы количественно определяет количество возможных изменений. Поскольку наблюдаемые отсчеты должны быть близки к истинным ставкам, их квадратные корни должны быть разумными проксами для квадратных корней истинных ставок. Эти прокси - именно то, что подразумевается под «стандартной ошибкой».

$165$ $77$ $14.5$ $77$

$9$ $(20, 10, 5, 23)$ $(4.5, 3.2, 2.2, 4.8)$ $9$ $(40, 28.5, 20, 44)$

Это примерно, насколько можно пойти с этими ограниченными данными. Эти простые расчеты показали, что:

Характеристика населения имеет решающее значение,
Квадратный корень отсчета является грубой отправной точкой для оценки его стандартной ошибки,
Квадратный корень должен быть умножен (примерно) на некоторый фактор, чтобы отразить отсутствие независимости в случаях заболевания (и этот фактор может приблизительно быть связан с размерами кластеров заболевания),
Различия между этими показателями отражают, главным образом, изменение заболеваемости с течением времени, а не неопределенность (относительно основной интенсивности Пуассона).

— Whuber
источник

1

Очень вдумчивый, тщательный ответ! Огромное спасибо.

— половина пройдет

2

Я не шучу, когда спрашиваю: «Стандартная ошибка чего?» Вы можете взять среднее значение этих четырех цифр и вычислить стандартную ошибку этого среднего. Эта статистика и получающийся в результате доверительный интервал имели бы смысл, если бы вы считали, что вы оправданно рассматриваете эти 4 сезона как репрезентативные для всех наборов 4 сезонов, к которым вы можете обобщить. В той степени, в которой вы настолько оправданы, ваши данные действительно будут случайной выборкой населения. Упомянутая вами выборка повлекла бы за собой дополнительный уровень выборки - вы можете назвать это кластерной выборкой, где каждый год представляет собой кластер.

— rolando2
источник