Когда подходит z-преобразование Фишера?


13

Я хочу проверить выборочную корреляцию на значимость, используя p-значения, то естьr

H0:ρ=0,H1:ρ0.

Я понял, что могу использовать z-преобразование Фишера для вычисления

zobs=n32ln(1+r1r)

и найти значение р по

p=2P(Z>zobs)

используя стандартное нормальное распределение.

Мой вопрос: насколько велико должно быть чтобы это было подходящим преобразованием? Очевидно, должно быть больше 3. Мой учебник не упоминает никаких ограничений, но на слайде 29 этой презентации говорится, что должно быть больше 10. Для данных, которые я буду рассматривать, у меня будет что-то вроде .нnn5 n 10n5n10


2
На странице Википедии перечислены стандартные ошибки которые задаются как где - размер выборки. Таким образом, вам понадобится как минимум 4 полные пары. Я не знаю каких-либо ограничений, кроме того, что касается размера выборки. 1 / zobs N1/N3N
COOLSerdash

8
Не уверен, насколько доверять презентации от кого-то, кто не может записать свое собственное название университета. А если серьезно, остерегайтесь всех советов, которые подразумевают, что все в порядке выше определенного размера выборки и ужасны в противном случае. Это вопрос качества аппроксимации, который плавно увеличивается в зависимости от размера выборки, а также в зависимости от распределения данных. Простой совет: будьте очень осторожны, составляйте все и перепроверяйте с помощью загруженных доверительных интервалов.
Ник Кокс

1
Слайд 17 описывает t-тест для особого случая . ρ=0
whuber

Ответы:


8

Для подобных вопросов я бы просто запустил симуляцию и посмотрел, ведут ли себя как я ожидаю. Значение - это вероятность случайного выбора образца, который отклоняется от нулевой гипотезы как минимум на столько же, сколько от данных, которые вы наблюдали, если нулевая гипотеза верна. Таким образом, если бы у нас было много таких выборок, а у одного из них было значение 0,04, то мы ожидали бы, что 4% из этих образцов будут иметь значение менее 0,04. То же самое верно для всех других возможных значений.р р рpppp

Ниже приведено моделирование в Stata. Графики проверяют, измеряют ли то, что они должны измерять, то есть они показывают, насколько доля выборок с меньше номинального значения отклоняется от номинального значения. Как видите, этот тест несколько проблематичен при таком небольшом количестве наблюдений. Является ли это слишком проблематичным для вашего исследования, является вашим суждением.р р рpppp

clear all
set more off

program define sim, rclass
    tempname z se
    foreach i of numlist 5/10 20(10)50 {
        drop _all
        set obs `i'
        gen x = rnormal()
        gen y = rnormal()
        corr x y 
        scalar `z'  = atanh(r(rho))
        scalar `se' = 1/sqrt(r(N)-3)
        return scalar p`i' = 2*normal(-abs(`z'/`se'))
    }
end

simulate p5 =r(p5)  p6 =r(p6)  p7  =r(p7)     ///
         p8 =r(p8)  p9 =r(p9)  p10 =r(p10)    ///
         p20=r(p20) p30=r(p30) p40 =r(p40)    ///
         p50=r(p50), reps(200000) nodots: sim 

simpplot p5 p6 p7 p8 p9 p10, name(small, replace) ///
    scheme(s2color) ylabel(,angle(horizontal)) 

введите описание изображения здесь

simpplot p20 p30 p40 p50 , name(less_small, replace) ///
    scheme(s2color) ylabel(,angle(horizontal)) 

введите описание изображения здесь


1
Попробуйте вычесть 2,5 вместо 3 из :-). n
whuber

5

FWIW Я вижу рекомендацию в Myers & Well (дизайн исследования и статистический анализ, второе издание, 2003, стр. 492). Сноска гласит:N10

Строго говоря, преобразование смещено на величину : см. Pearson and Hartley (1954, p. 29). Это смещение, как правило, будет незначительным, если не мало и велико, и мы здесь его игнорируем.Zr/(2(N1))Nρ


3
Похоже, это ответ мне.
gung - Восстановить Монику

1

Не уверен, подходит ли здесь преобразование Фишера . Для H 0 : ρ = 0 (примечание: нулевая гипотеза относится к совокупности ρ , а не к выборке r ), распределение выборки коэффициента корреляции уже симметрично, поэтому нет необходимости уменьшать асимметрию, что и стремится Фишера z , и Вы можете использовать т приближение Стьюдента .zH0:ρ=0ρrzt

H0:ρ=ρ00ρ0nnα

Справедливо мнение Ника: аппроксимации и рекомендации всегда действуют в какой-то серой зоне.

n(tα/2s/ϵ)2tsn(1.96s/ϵ)2


4
zzz

1
zH0:ρ=ρ00t

3
ztρ=0

1
z

ϵn
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.