Есть ли 99 процентилей или 100 процентилей? И являются ли они группами чисел, или делителями, или указателями на отдельные числа?


27

Есть ли 99 процентилей или 100 процентилей? Являются ли они группами чисел, или разделительными линиями, или указателями на отдельные числа?

Я полагаю, что тот же вопрос будет применяться для квартилей или любого квантиля.

Я читал, что индекс числа в конкретном процентиле (р), учитывая n пунктов, i = (p / 100) * n

Это наводит меня на мысль, что есть 100 процентилей ... потому что, если у вас есть 100 чисел (от i = 1 до i = 100), то у каждого будет индекс (от 1 до 100).

Если бы у вас было 200 чисел, было бы 100 процентилей, но каждый из них относился бы к группе из двух чисел. Или 100 делителей, исключая либо крайний левый, либо крайний правый делитель, иначе вы получите 101 делитель. Или указатели на отдельные числа, так что первый процентиль будет ссылаться на второе число, (1/100) * 200 = 2 А сотый процентиль будет ссылаться на 200-е число (100/100) * 200 = 200

Я иногда слышал, что там 99 процентилей, хотя ..

Google показывает оксфордский словарь, в котором говорится о процентиле - «каждая из 100 равных групп, на которые можно разделить популяцию в соответствии с распределением значений конкретной переменной». и «каждое из 99 промежуточных значений случайной величины, которые делят частотное распределение на 100 таких групп».

Википедия говорит, что «20-й процентиль - это значение, ниже которого может быть найдено 20% наблюдений». Но действительно ли это означает «значение, ниже или равное которому, можно найти 20% наблюдений», т. Е. «Значение, для которого 20 % значений <= к нему ". Если бы это было просто <, а не <=, то по этой причине 100-й процентиль будет значением, ниже которого могут быть найдены 100% значений. Я слышал это как аргумент, что не может быть 100-го процентиля, потому что у вас не может быть числа, где под ним 100% чисел. Но я думаю, что, возможно, тот аргумент, что у вас не может быть 100-го процентиля, неверен и основан на ошибке, что определение процентиля включает в себя <= not <. (или> = не>). Таким образом, сотый процентиль будет окончательным числом и будет>


4
Я думаю, что вряд ли 100 будет разумным ответом из-за его асимметричной обработки крайностей. Случаи могут быть сделаны для 99 (как в определении, которое вы цитируете) или 101.
whuber

4
Исторически квантили - как мы сейчас говорим обобщенно - были сначала краткими точками, а затем путем расширения бинов, классов или интервалов, которые они разделяют. Итак, три квартиля, включая медиану, определяют четыре корзины и так далее.
Ник Кокс

1
@whuber Вы пишете: «Я думаю, что вряд ли 100 будет разумным ответом из-за асимметричной обработки крайностей». <- Вы можете уточнить это?
barlop

3
Я перечисляю раннее использование различных квантильных терминов на stats.stackexchange.com/questions/235330/… . Если вы посмотрите в OED или JSTOR, вы получите примеры исторического использования.
Ник Кокс

2
@whuber Да, похоже, что то, на что я ссылаюсь, правильно называется «процентильным рангом», используемым в отчетах о результатах тестов и т. д .: en.wikipedia.org/wiki/Percentile , en.wikipedia.org/wiki/Percentile_rank , ncme .org / resources / глоссарий . Извиняюсь за добавление в замешательство. В мою защиту разница, по-видимому, зависит от использования предлогов «at» против «in» (см. 1-ую ссылку).
Джефф У

Ответы:


32

Оба эти значения процентиля , квартиля и т. Д. Широко используются. Проще всего показать разницу с квартилями:

  1. смысл «делителя» - есть 3 квартили, которые представляют собой значения, разделяющие распределение (или выборку) на 4 равные части:

       1   2   3
    ---|---|---|---
    

    (Иногда это используется с включенными значениями max и min, поэтому 5 квартилей пронумерованы от 0 до 4; обратите внимание, что это не противоречит приведенной выше нумерации, а только расширяет ее.)

  2. смысл «бин»: есть 4 квартили, подмножества, на которые эти 3 значения делят распределение (или выборку)

     1   2   3   4
    ---|---|---|---
    

Ни одно использование не может быть разумно названо «неправильным»: оба используются многими опытными практиками, и оба появляются в большом количестве авторитетных источников (учебники, технические словари и тому подобное).

Что касается квартилей, то используемый смысл обычно ясен из контекста: говорить о значении в третьем квартиле может быть только смыслом «мусорного ведра», тогда как говоря о всех значениях ниже третьего квартиля, скорее всего, означает смысл «делителя». С процентилями различие чаще неясно, но оно также не так существенно для большинства целей, так как 1% распределения настолько мал - узкая полоса - это приблизительно линия. Говоря о всех, кто выше 80-го процентиля, может означать верхние 20% или верхние 19%, но в неформальном контексте это не является существенным отличием, и в строгой работе необходимое значение должно быть, по-видимому, разъяснено остальным контекстом.

(Части этого ответа адаптированы из /math/1419609/are-there-3-or-4-quartiles-99-or-100-percentiles , который также дает цитаты + ссылки.)


2
(+1) Этот запоздалый ответ хорошо раскрывает суть вопроса.
Ник Кокс

насчет en.wikipedia.org/wiki/Percentile говорит, что «каждый счет в сотом процентиле» <- это звучит как мусорное ведро размером всего набора данных, тогда как все ваши мусорные ведра равны
размеру

1
Запись в Википедии говорит это. Я не могу думать о защите такой формулировки. Википедия прекрасна, за исключением случаев, когда она вводит в заблуждение или неправильно. Это будет звучать легкомысленно, но все, что я могу сделать, - это побудить любого, кто следит за тем, кто активен в Википедии, улучшить запись. У каждого должны быть правила относительно того, что они делают и чего не делают, и быть активным здесь и в некоторых других местах - это мое личное ограничение.
Ник Кокс

5

Примите этот ответ с крошкой соли - он начался довольно неправильно, и я все еще решаю, что с ним делать.

Вопрос частично о языке и использовании, тогда как этот ответ сосредоточен на математике. Я надеюсь, что математика обеспечит основу для понимания различных способов использования.

xfFF1(x)zF1(z/100)F является 1) необратимым, 2) обратимым только в определенной области или 3) обратимым, но его обратное никогда не достигает определенных значений.

Пример 1): я оставлю это напоследок; Продолжай читать.

F1(1)F1(0)F(0.5)

Другой пример 2): для равномерного распределения на двух непересекающихся интервалах от 0 до 1 и от 2 до 3, CDF выглядит следующим образом.

введите описание изображения здесь

Большинство квантилей этого распределения существуют и являются уникальными, но медиана (50-й процентиль) по своей сути неоднозначна. В R они идут на полпути: quantile(c(runif(100), runif(100) + 2), 0.5)возвращает около 1,5.

±

z/100yF(y)=z/100

введите описание изображения здесь

Для 60-го процентиля R возвращает 1 ( quantile(c(rpois(lambda = 1, n = 1000) ), 0.60)). Для 65-го процентиля R также возвращает 1. Вы можете думать об этом как о проведении 100 наблюдений, ранжировании их от низкого до высокого и возвращении 60-го или 65-го элемента. Если вы сделаете это, вы чаще всего получите 1.

Когда дело доходит до реальных данных, все распределения являются дискретными. (Эмпирический CDF runif(100)или np.random.random(100)имеет 100 приращений, сгруппированных около 0,5.) Но вместо того, чтобы рассматривать их как дискретные, quantileфункция R, похоже, рассматривает их как выборки из непрерывных распределений. Например, медиана (50-й процентиль или 0,5 квантиль) выборки 3,4, 5, 6, 7, 8 задается как 5,5. Если вы возьмете 2n выборок из униф (3,8) распределения и возьмете любое число между n-й и (n + 1) -ой выборкой, вы сойдетесь на 5,5 при увеличении n.

Интересно также рассмотреть дискретное равномерное распределение с равной вероятностью попадания 3,4,5,6,7,8. (Бросок кубика плюс два.) Если вы воспользуетесь методом выборки и ранга, описанным выше для распределения Пуассона, вы обычно получите 5 или 6. По мере увеличения выборки распределение для числа на полпути вверх будет сходиться на половину. пять с половиной шестерок. 5.5 здесь тоже кажется разумным компромиссом.


2
F1[0,1]F[0,1]F
whuber

Хорошая точка зрения. Я попытался выделить некоторые случаи, чтобы прояснить это. Как бы вы улучшили обсуждение преемственности? Интерпретация квантилей как оценщиков является центральной точкой моего ответа; они действительно не имеют смысла для меня без этого.
eric_kernfeld

По поводу последнего: квантилям не нужно ничего оценивать. Они полезны сами по себе для описания и визуализации данных (и часто используются только в качестве описательной статистики). В продолжение: я думаю, что большинство авторитетов сказали бы, что все процентили существуют для дискретных распределений. Настаивать на другом - это ненужное осложнение. Это также сделало бы результаты большинства программных вычислений совершенно загадочными, которые с радостью предоставляют все квантили от 0 до 1 ( включительно ) для любого набора данных. В R, например, типа quantile(0).
whuber

Это обсуждение заставило меня понять, что я не понимаю квантили дискретных распределений. Я думаю, что я должен удалить этот ответ.
eric_kernfeld

1
Люди меняются по этому поводу, Эрик. Когда мои ответы настолько неверны, что вводят в заблуждение, я сначала их удаляю. Если я вижу потенциальное значение в части ответа, я редактирую его, чтобы удалить (или объяснить) вводящую в заблуждение часть, а затем восстановить его. Другие просто позволяют вещам стоять и берут свои комки во время голосования; другие добавляют правку, предполагающую, что у читателей может быть смысл видеть, где могло произойти какое-то недоразумение; а другие просто удаляют. Вы можете даже полностью изменить ответ, если хотите, как это иногда делается.
whuber

2

Меня учили, что наблюдение в n-м процентиле было больше, чем n% наблюдений в рассматриваемом наборе данных. Что для меня означает, что нет 0-го или 100-го процентиля. Ни одно наблюдение не может превышать 100% наблюдений, поскольку оно составляет часть этих 100% (и аналогичная логика применяется в случае 0).

Изменить: Для чего это стоит, это также согласуется с неакадемическим использованием термина, с которым я столкнулся: «X находится в n-м процентиле » означает, что процентиль является группой, а не границей.

У меня, к сожалению, нет источника для этого, на который я могу вам указать.


6
У вас есть авторитетная ссылка на то, что вы помните, чему вас учили? Обратите внимание, что вы неявно принимаете определение «процентиля» как группы чисел. Другое определение, приведенное в вопросе, заключается в том, что процентиль является границей между такими группами.
whuber

1
Это не имеет смысла для меня, потому что предположим, что ваши данные 2,2,2,2,2,2,2,2,2,2,2, поэтому элемент в одном квантиле равен элементу слева от него. предыдущий квантиль. Таким образом, элемент в n-ом квантиле не больше, чем все оставшиеся от него квантили. Таким образом, элемент в n-м процентиле не превышает n% наблюдений в наборе данных. Это> = n% наблюдений в наборе данных, но не просто>. И, следовательно, вы можете иметь сотый пестициль .. что вы думаете об этой логике?
barlop

4
Многие определения подвергаются нагрузке, если все значения идентичны!
Ник Кокс

2
Те из математики склонны абстрагироваться и идеализировать, в то время как те, кто пишет программное обеспечение, должны иметь дело с беспорядком данных. Ваш пример 16 значений будет рассматриваться по-разному в известной мне программе, которая следует правилу, согласно которому одинаковые значения должны быть связаны одинаково (и я согласен). Я удивлен тем, что вы не мучаетесь с данными с 15 или 17 значениями, когда даже если все значения различны, ни одно правило не может разделить данные на 4 ячейки одинакового размера.
Ник Кокс

3
Какова аналогичная логика для нуля? Разве «больше нуля процентов наблюдений» означает «равно или меньше всех наблюдений», то есть 0-й процентиль будет самым низким наблюдаемым значением?
ilkkachu

2

Существуют и другие способы расчета процентилей, которые не являются единственными. Взято из этого источника .


p pp%28808028

x1xn

nxipi

pi=100(i0.5)n

Пример из тех же заметок для иллюстрации:

введите описание изображения здесь

7507

Если бы у вас было 200 чисел, было бы 100 процентилей, но каждый из них относился бы к группе из двух чисел.

Нет.

x1x200

100(10.5)200100(20.5)200100(30.5)200...

в результате чего

0.25,0.75,1.25...1,2,3,...


3
Первое предложение выглядит великолепно, и одно из самых важных слов - приблизительно. После этого это будет подробное объяснение только одного рецепта. Ключевым является то, что существует несколько рецептов, и большинство, если не все, имеют какую-то оправданную логику о них (иногда логика заключается в том, чтобы все было как можно проще). См. Статью Хиндмана и Фана, на которую ссылаются многие темы здесь, в резюме. Я сомневаюсь, что многие люди воспримут ваш последний абзац как способ сообщить процентили для вашего примера.
Ник Кокс

@ Ник Кокс Спасибо за проницательный комментарий. Что касается последнего абзаца, я считаю, что метод должен работать нормально, когда все наблюдения отличаются друг от друга. В случае повторных чисел не будет уникального процентиля для того же числа, что звучит не очень хорошо. Не могли бы вы подсказать, как поступить с делом? И не могли бы вы также указать на возможные подводные камни в последнем абзаце.
наивно

1
Я не думаю, что хочу или должен добавить к тому, что уже хорошо объяснено в журнальной литературе. Во-первых, у вас есть любимое программное обеспечение для этого. Посмотрите, что он документирует и что он делает. Во-вторых, я не рассчитывал процентили вручную в течение нескольких десятилетий, и никому из нас это не нужно. В-третьих, моя точка зрения по поводу последнего пункта: я думаю, никто не хочет, чтобы ему говорили, что наблюдаемые точки данных - это 0,25, 0,75, 1,25, ... процентили. То, что люди хотят, варьируется, но, по моему опыту, чаще всего требуются итоги, такие как 1, 5, 10, 25, 50, 75, 90, 95, 99%, а также крайние значения выборки.
Ник Кокс

1
Я только что заметил, что вы утверждаете, что 0,5 на языке EDA часто называют p-значением для медианы. Не в моем прочтении, и даже если вы можете найти примеры, которые представляют собой ужасную терминологию, учитывая подавляющее большинство значений р-значения как наблюдаемого уровня значимости.
Ник Кокс

Я пойду через документ, который вы предложили. Спасибо
наивный

0

Примечание. Я приму чужой ответ, а не мой. Но я вижу некоторые полезные комментарии, поэтому я просто пишу ответ, в котором упоминаются те.

На основании ответа Ника "-iles" для верхних полпроцентов

кажется, что термины двусмысленны, и я полагаю (исходя из моего понимания этого поста), лучшая терминология была бы X% -ой точкой, и X% -Y% группой; такая квантильная точка (так для квартильных точек, которые могут быть от 0 до 4); квантильная группа от X квантильной точки до Y квантильной точки.

В любом случае можно получить 101 для процентилей, хотя один комментарий предполагает, что можно сослаться на 101 балл (я полагаю, если вы посчитали процентильные баллы и только целые числа), но даже тогда, если говорить о 1, 2, 3, процентиле или квантиль, он считается, и первое не может считаться как 0, и вы не можете иметь, например, более 4 квартилей или более 100 процентилей. Так что, если говорить 1, 2, 3, эта терминология не может в действительности относиться к точке 0. Если кто-то сказал 0-ю точку, то, хотя понятно, что они означают точку 0, я думаю, что они действительно должны сказать квантильную точку 0. Или группа квантилей в точке 0. Даже компьютерные ученые не сказали бы 0th; даже они считают первый элемент как 1, и если они называют его элементом 0, это индексация от 0, а не количество.

В комментарии упоминается «Не может быть 100. Либо 99, либо 101, в зависимости от того, считаете ли вы максимум и минимум». Я думаю, что есть случай для 99 или 101, когда речь идет о квантильных точках, а не о группах, хотя я бы не сказал 0-й. Для n элементов индекс может идти от 0 ... n-1, и никто не будет писать th / st, например 1-й, 2-й и т. Д., В индексе (если, возможно, индекс не выполнил индексирование первого элемента как 1). Но индекс, начинающий первый элемент с индекса 0, не является первым, вторым и третьим счетом. Например, элемент с индексом 0 - это первый элемент, никто не сказал бы 0-й, а второй элемент - как первый.


Любую двусмысленность внесли те, кто отошел от явного исторического прецедента. На практике это не сильно кусается.
Ник Кокс

Все математики начинают считать с нуля. Концепция проста и естественна: произнесение слова «ноль» вслух объявляет о нашем намерении считать. Затем кто-то делает (возможно произвольно) однозначное присвоение последовательности слов «один», «два», «три» и т. Д. Подсчитываемым объектам. Последнее из этих слов (если есть последнее) приравнивается к количеству множества. Прелесть этой идеи в том, что когда в наборе нет элементов, последнее слово было «ноль», что является единственно правильным значением.
8uber

@whuber вы пишете "Все математики начинают считать с нуля" <- Как вы думаете, где я сказал иначе?
Барлоп

msgstr "это считается, и первое не может считаться как 0".
uber

1
@whuber, возможно, многие могли бы, я думаю, много лет назад, возможно, когда-то, когда я изучал информатику, я иногда слышал, что компьютерные ученые считают от 0, unilke математики (это не ваше или мое утверждение), но после некоторой глубокой мысли я получил больше Ясность и осознание того, что компьютерные ученые и математики оба считают от 0 .. Разница в том, что компьютерные ученые часто используют индекс, и индекс индексирует первый элемент как 0. (но все равно счет будет 1) ..
barlop
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.