Некоторые мысли у меня были:
Это похоже на желание выполнить t-тест из двух выборок - за исключением того, что для второй выборки у меня есть только одно значение, а 30 значений не обязательно распределяются нормально.
Правильный. Идея немного похожа на t-критерий с одним значением. Поскольку распределение неизвестно, и нормальность только с 30 точками данных может быть немного трудно проглотить, это требует некоторого непараметрического теста.
Если бы вместо 30 измерений у меня было 10000 измерений, ранг одного измерения мог бы дать некоторую полезную информацию.
Даже с 30 измерениями ранг может быть информативным.
Как указал @whuber, вам нужен некоторый интервал прогнозирования. Что касается непараметрического случая, то, по сути, вы спрашиваете следующее: какова вероятность того, что данная точка данных будет случайно иметь ранг, который мы наблюдаем для вашего 31-го измерения?
Это можно решить с помощью простого теста перестановки. Вот пример с 15 значениями и романом (16-е наблюдение), который на самом деле больше, чем любой из предыдущих:
932
915
865
998
521
462
688
1228
746
433
662
404
301
473
647
new value: 1374
Мы выполняем N перестановок, где порядок элементов в списке перетасовывается, затем задаем вопрос: каков ранг для значения первого элемента в (перетасованном) списке?
Выполнение N = 1000 перестановок дает нам 608 случаев, в которых ранг первого элемента в списке равен или лучше ранга нового значения (фактически равного, поскольку новое значение является лучшим). Запустив симуляцию снова для 1000 перестановок, мы получаем 658 таких случаев, затем 663 ...
Если мы выполним N = 1 000 000 перестановок, мы получим 62825 случаев, в которых ранг первого элемента в списке равен или лучше ранга нового значения (дальнейшее моделирование дает 62871 дел, а затем 62840 ...). Если взять соотношение между случаями, в которых выполняется условие, и общим числом перестановок, мы получим числа, такие как 0,062825, 0,062871, 0,06284 ...
Вы можете видеть, что эти значения сходятся к 1/16 = 0,0625 (6,25%), что, как отмечает @whuber, представляет собой вероятность того, что заданное значение (из 16), выбранное случайным образом, имеет наилучший возможный ранг среди них.
Для нового набора данных, где новое значение является вторым лучшим значением (т. Е. Ранг 2):
6423
8552
6341
6410
6589
6134
6500
6746
8176
6264
6365
5930
6331
6012
5594
new value: 8202
мы получаем (для N = 1 000 000 перестановок): 125235, 124883 ... благоприятные случаи, которые, опять же, аппроксимируют вероятность того, что данное значение (из 16), выбранное случайным образом, будет иметь второй наилучший ранг среди них: 2/16 = 0,125 (12,5%).