В чем разница между вероятностными, PP-графиками и QQ-графиками при попытке анализа подобранного распределения по данным?
В чем разница между вероятностными, PP-графиками и QQ-графиками при попытке анализа подобранного распределения по данным?
Ответы:
Как отмечает @ vector07 , вероятностный график - это более абстрактная категория, членами которой являются pp-plots и qq-plots. Таким образом, я буду обсуждать различие между двумя последними. Лучший способ понять различия - это подумать о том, как они построены, и понять, что вам нужно распознать разницу между квантилями распределения и пропорцией распределения, через которое вы прошли, достигнув определенного квантиля. Вы можете увидеть взаимосвязь между ними, построив график кумулятивной функции распределения (CDF) распределения. Например, рассмотрим стандартное нормальное распределение:
Мы видим, что приблизительно 68% оси Y (область между красными линиями) соответствует 1/3 оси X (область между синими линиями). Это означает, что когда мы используем пропорцию распределения, через которое мы прошли, чтобы оценить соответствие между двумя распределениями (то есть мы используем pp-plot), мы получим большое разрешение в центре распределений, но меньше при хвосты. С другой стороны, когда мы используем квантили для оценки соответствия между двумя распределениями (то есть используем qq-plot), мы получим очень хорошее разрешение в хвостах, но меньше в центре. (Поскольку аналитики данных, как правило, больше заботятся о хвостах распределения, что, например, окажет большее влияние на вывод, qq-графики гораздо более распространены, чем pp-графики.)
Чтобы увидеть эти факты в действии, я пройдусь по построению pp-сюжета и qq-сюжета. (Я также проходил через построение qq-сюжета в устной / более медленной форме: QQ-plot не соответствует гистограмме .) Я не знаю, используете ли вы R, но, надеюсь, это самоочевидно:
set.seed(1) # this makes the example exactly reproducible
N = 10 # I will generate 10 data points
x = sort(rnorm(n=N, mean=0, sd=1)) # from a normal distribution w/ mean 0 & SD 1
n.props = pnorm(x, mean(x), sd(x)) # here I calculate the probabilities associated
# w/ these data if they came from a normal
# distribution w/ the same mean & SD
# I calculate the proportion of x we've gone through at each point
props = 1:N / (N+1)
n.quantiles = qnorm(props, mean=mean(x), sd=sd(x)) # this calculates the quantiles (ie
# z-scores) associated w/ the props
my.data = data.frame(x=x, props=props, # here I bundle them together
normal.proportions=n.props,
normal.quantiles=n.quantiles)
round(my.data, digits=3) # & display them w/ 3 decimal places
# x props normal.proportions normal.quantiles
# 1 -0.836 0.091 0.108 -0.910
# 2 -0.820 0.182 0.111 -0.577
# 3 -0.626 0.273 0.166 -0.340
# 4 -0.305 0.364 0.288 -0.140
# 5 0.184 0.455 0.526 0.043
# 6 0.330 0.545 0.600 0.221
# 7 0.487 0.636 0.675 0.404
# 8 0.576 0.727 0.715 0.604
# 9 0.738 0.818 0.781 0.841
# 10 1.595 0.909 0.970 1.174
К сожалению, эти графики не очень отличительны, потому что данных мало, и мы сравниваем истинную нормаль с правильным теоретическим распределением, поэтому нет ничего особенного, чтобы увидеть ни в центре, ни в хвостах распределения. Чтобы лучше продемонстрировать эти различия, я строю (жирнохвостый) t-распределение с 4 степенями свободы и бимодальное распределение ниже. Толстые хвосты намного более характерны для qq-графика, тогда как бимодальность более характерна для pp-графика.
Вот определение из v8doc.sas.com :
График PP сравнивает эмпирическую интегральную функцию распределения набора данных с заданной теоретической интегральной функцией F (·). График QQ сравнивает квантили распределения данных с квантилями стандартизированного теоретического распределения из указанного семейства распределений.
В тексте они также упоминают:
Ссылка :
SAS Institute Inc., SAS OnlineDoc®, версия 8, Cary, NC: SAS Institute Inc., 1999