У меня есть набор данных с десятками тысяч наблюдений за данными о медицинских расходах. Эти данные сильно искажены вправо и имеют много нулей. Это выглядит так для двух групп людей (в данном случае две возрастные группы с> 3000 человек в каждой):
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.0 0.0 0.0 4536.0 302.6 395300.0
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.0 0.0 0.0 4964.0 423.8 721700.0
Если я выполню t-тест Уэлча на этих данных, я получу результат обратно:
Welch Two Sample t-test
data: x and y
t = -0.4777, df = 3366.488, p-value = 0.6329
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-2185.896 1329.358
sample estimates:
mean of x mean of y
4536.186 4964.455
Я знаю, что не правильно использовать t-тест на этих данных, так как это очень ненормально. Однако, если я использую тест перестановки для разности средних значений, я получаю почти одинаковое значение p все время (и оно становится ближе с большим количеством итераций).
Использование пакета perm в R и permTS с точным Монте-Карло
Exact Permutation Test Estimated by Monte Carlo
data: x and y
p-value = 0.6188
alternative hypothesis: true mean x - mean y is not equal to 0
sample estimates:
mean x - mean y
-428.2691
p-value estimated from 500 Monte Carlo replications
99 percent confidence interval on p-value:
0.5117552 0.7277040
Почему статистика теста на перестановку выходит так близко к значению t.test? Если я беру журналы данных, то получаю p-значение t.test 0,28 и то же самое из теста перестановки. Я думал, что значения t-теста будут больше мусора, чем то, что я получаю здесь. Это относится ко многим другим наборам данных, которые мне нравятся, и мне интересно, почему t-тест работает, когда он не должен.
Меня беспокоит то, что индивидуальные затраты не учитываются. Существует много подгрупп людей с очень разным распределением затрат (женщины по сравнению с мужчинами, хронические состояния и т. Д.), Которые, по-видимому, нарушают требование iid для центральной теоремы о пределе, или мне не следует беспокоиться об этом?