В R у меня есть выборка из 348 мер, и я хочу знать, могу ли я предположить, что она обычно распространяется для будущих тестов.
По сути, следуя другому ответу из стека , я смотрю на график плотности и график QQ:
plot(density(Clinical$cancer_age))
qqnorm(Clinical$cancer_age);qqline(Clinical$cancer_age, col = 2)
У меня нет большого опыта в области статистики, но они выглядят как примеры нормальных распределений, которые я видел.
Затем я запускаю тест Шапиро-Вилка:
shapiro.test(Clinical$cancer_age)
> Shapiro-Wilk normality test
data: Clinical$cancer_age
W = 0.98775, p-value = 0.004952
Если я правильно истолковываю это, оно говорит мне, что безопасно отвергнуть нулевую гипотезу, которая заключается в том, что распределение нормальное.
Однако я столкнулся с двумя сообщениями в стеке ( здесь и здесь ), которые сильно подрывают полезность этого теста. Похоже, что если выборка большая (348 считается большой?), Она всегда скажет, что распределение не нормальное.
Как мне все это интерпретировать? Должен ли я придерживаться графика QQ и предположить, что мое распределение нормальное?