Определение квантилей по взвешенной выборке

У меня есть взвешенная выборка, для которой я хочу рассчитать квантили. ¹

В идеале, где веса равны (ли = 1 или иным образом ), то результаты будут согласуются с данными scipy.stats.scoreatpercentile()и R - х quantile(...,type=7).

Одним из простых подходов было бы «умножить» выборку с использованием заданных весов. Это эффективно дает локально «плоский» ecdf в областях с весом> 1, что интуитивно кажется неправильным подходом, когда выборка фактически является подвыборкой. В частности, это означает, что выборка с весами, равными 1, имеет квантили, отличающиеся от квантилей с весами, равными 2 или 3. (Обратите внимание, однако, что статья, упомянутая в [1], действительно использует этот подход.)

http://en.wikipedia.org/wiki/Percentile#Weighted_percentile дает альтернативную формулировку для взвешенного процентиля. В этой формулировке неясно, следует ли сначала объединять смежные выборки с одинаковыми значениями и суммировать их веса, и в любом случае его результаты не соответствуют типу R по умолчанию 7 quantile()в невзвешенном / равно взвешенном случае. На странице википедии о квантилях вообще не упоминается взвешенный случай.

Существует ли взвешенное обобщение функции квантиля R типа 7?

[используя Python, но на самом деле просто ищу алгоритм, так что любой язык подойдет]

[1] Веса являются целыми числами; веса - это те из буферов, которые объединяются в операциях «свертывания» и «вывода», как описано в http://infolab.stanford.edu/~manku/papers/98sigmod-quantiles.pdf . По существу, взвешенная выборка является подвыборкой полной невзвешенной выборки, причем каждый элемент x (i) в подвыборке представляет весовые (i) элементы в полной выборке.

algorithms quantiles weighted-sampling

— Миша
источник

Тема довольно старая, но здесь приведен простой код для взвешенных квантилей stackoverflow.com/a/29677616/498892

— Alleo

Это один из возможных подходов:

Предположим, у вас есть упорядоченный образец с соответствующими весами $X_1 \le X_2 \le \cdots \le X_n$ $W_1, W_2, \ldots, W_n$ .

S_{k} = (k - 1) W_{k} + (N - 1) \sum_{i = 1}^{k - 1} W_{i}

$S_k = (k-1) W_k+ (N-1) \sum_{i=1}^{k-1} W_i$

S_{1} = 0

$S_1=0$

S_{n} = (N - 1) \sum_{i = 1}^{N} W_{i}

$S_n = (N-1) \sum_{i=1}^{N} W_i$

$p$ $k$ $\frac{S_k}{S_n} \le p \le \frac{S_{k+1}}{S_n}$

X_{k} + (X_{k + 1} - X_{k}) \frac{p S_{n} - S_{k}}{S_{k + 1} - S_{k}} .

$X_k + (X_{k+1}-X_k)\frac{pS_n-S_k}{S_{k+1}-S_k}.$

$W_i$

— Генри
источник

Может возникнуть проблема, если два значения в выборке равны, но имеют разные веса - я не думаю об этом.

— Генри