Объяснение на указанной странице
Согласно нулевой гипотезе вероятность в точности равна если принять во внимание как случайность в данных, так и случайность в симуляции.k / n simPr ( P≤ к / нсим)к / нсим
Чтобы понять это, мы должны взглянуть на код, ключевые строки которого (значительно сокращены)
fred <- function(x) {ks.test(...)$statistic} # Apply a statistical test to an array
d.hat <- fred(x) # Apply the test to the data
d.star <- apply(matrix(rnorm(n*nsim), n, nsim),
2, fred) # Apply the test to nsim simulated datasets
pval <- (sum(d.star > d.hat) + 1) / (nsim + 1)# Estimate a simulation p-value
Существенная проблема заключается в том, что код не соответствует кавычке. Как мы можем примирить их? Одна попытка начинается со второй половины цитаты. Мы можем интерпретировать процедуру как включающую следующие шаги:
Collect независимо друг от друга и одинаково распределенные данные согласно некоторому вероятностному закону . Примените тестовую процедуру (реализованную в коде как ), чтобы получить число . G t T 0 = t ( X 1 , … , X n )Икс1, X2, … , XNграммTfred
T0= т ( Х1, … , XN)
Сформировать с помощью компьютера сравнимых наборов данных, каждый из размера , в соответствии с нулевой гипотезой с вероятностью закона . Примените к каждому такому набору данных, чтобы получить чисел . n F t N T 1 , T 2 , … , T NN= nсимNFTNT1, Т2, … , ТN
Вычислить
п= ( ∑я = 1Nя( Тя> Т0) + 1 ) / ( N+ 1 ) .
(« » - это индикаторная функция, реализованная посредством векторного сравнения в коде.) Правая часть понимается как случайная в силу одновременной случайности (фактической статистики теста) и случайности ( смоделированная тестовая статистика). т 0 т яяd.star > d.hat
T0Tя
Для того, чтобы сказать , что данные соответствуют нулевой гипотезы является утверждение , что . Выберите размер теста , . Умножение обеих сторон на и вычитание показывает, что вероятность того, что для любого числа - это вероятность того, что не более из превысит . Это говорит лишь о том, что находится в верхней части отсортированного набора всей статистики испытаний . Так как (по конструкции)α 0 < α < 1 N + 1 1 P ≤ α α ( N + 1 ) α - 1 T i T 0 T 0 ( N + 1 ) α N + 1 T 0 T i F ⌊ ( N + 1 ) α ⌋ Pr ( P ≤ α ) = ⌊F= Gα0 < α < 1N+ 11п≤ αα( N+ 1 ) α - 1TяT0T0( N+ 1 ) αN+ 1T0не зависит от всех , когда - непрерывное распределение, этот шанс будет частью общего числа, представленного целой частью ; то есть и он будет точно равен ему при условии - целое число ; то есть когда .TяF⌊ ( N+ 1 ) α ⌋(N+1)& alphaк& alpha=K/(N+1)
Pr ( P≤ α ) = ⌊ ( N+ 1 ) α ⌋N+ 1≈ α
( N+ 1 ) αКα = k / ( N+ 1 )
Это, безусловно, одна из вещей, которые мы хотим быть верными для любой величины, которая заслуживает того, чтобы называться «p-значением»: она должна иметь равномерное распределение на . При условии, что достаточно велико, так что любая близка к некоторой доле формы , эта будет близка к равномерной распределение. (Чтобы узнать о дополнительных условиях, необходимых для p-значения, прочитайте диалог, который я разместил на тему p-значений. )N + 1 α k / ( N + 1 ) = k / ( n sim + 1 ) P[ 0 , 1 ]N+ 1αк / ( Н+ 1 ) = k / ( nсим+ 1 )п
Очевидно, что цитата должна использовать « » вместо « », где бы он ни появлялся.n simNсим+ 1Nсим