Могу ли я использовать Z-показатель с искаженными и ненормальными данными? [закрыто]


12

Я работал с некоторыми данными о времени цикла процесса и масштабированием с использованием стандартного z-показателя для сравнения частей полного цикла.

Должен ли я использовать какое-то другое преобразование, поскольку данные сильно искажены / не нормальны? («выбросы» никогда не могут занять отрицательное время и часто занимают намного больше времени, чем «средний»)

Использование z-счета все еще кажется "работающим" ...

###############
# R code    
###############
mydata <- rweibull(1000,1,1.5)
hist(mydata)
hist(scale(mydata))

5
Что именно вы спрашиваете? Конечно, вы все еще можете вычислить , но для чего вы пытаетесь его использовать? Количество стандартных отклонений от среднего значения (то есть, что такое оценка) может не быть особенно полезной статистикой в ​​некоторых ситуациях. zzz
Макро

Ответы:


5

Если X сильно искажен, статистика Z не будет нормально распределена (или t, если стандартное отклонение должно быть оценено. Таким образом, процентили Z не будут стандартно нормальными. Так что в этом смысле это не работает.


Насколько я понимаю, X сильно искажен означает, что размер выборки был недостаточно большим (центральная предельная теорема). Однако я не уверен, должно ли само население быть нормальным, чтобы статистика Z работала. Является ли?
Анджей Гис

1
ОП говорит о распределении населения, а не о распределении среднего. Таким образом, размер выборки и центральная предельная теорема не применяются.
Майкл Р. Черник

2

Код R будет работать, но z-оценка будет примерно такой же значимой, как и предложение «Виноград слегка звонит авторучке». Это правильное предложение, но не несет в себе ничего значащего.

Судя по вашему R-коду, кажется, что вы думаете, что ваши данные распределены Вейбуллом. В этом случае я бы просто использовал статистику Вейбулла и ничего не масштабировал, если только вам это не нужно. Несмотря на то, что z-показатели учитываются в каждом классе вводной статистики, это не означает, что вы должны использовать их постоянно, особенно если у вас нет симметричных данных.


1

Если население не распределено нормально. В этом случае распределение бара (X) {выборочное среднее} приближается к нормальному распределению согласно центральной предельной теореме; для большого размера выборки. Хотя теоретически мы говорим, что используем Student's-t, но для более высоких значений n (размер выборки или степень свободы) распределение t и распределение Z почти равны.


-4

ВАШИ ДАННЫЕ НЕ ДОЛЖНЫ БЫТЬ НОРМАЛЬНЫМИ ДЛЯ Z-TEST. (TOWNEND, 2002) ОДНАКО ВАРИАНТЫ ДОЛЖНЫ БЫТЬ ПРИБЛИЖЕННЫМИ РАВНЫМИ. ЧТОБЫ ПРОВЕРИТЬ, ЧТО ВЫПОЛНЯЕТЕ F-ТЕСТ ДЛЯ ДВУХ ВАШИХ ДАННЫХ, И ЕСЛИ ВАШИ ВАРИАНТЫ ПРИМЕРНО РАВНЫ, РЕЗУЛЬТАТ Z ТЕСТА ПОЛЕЗЕН. Если нет, преобразовать данные.


9
Вопрос в том, что преобразование переменной не является тестом, поэтому я не думаю, что ваш ответ применим. Кроме того, это, вероятно, более информативно, если вы дадите полную ссылку, а не просто ссылку на название года, и некоторые люди будут возражать против крика.
Maarten Buis

Я согласен с @MaartenBuis, но в отличие от него, я буду понижать это.
Эрик
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.