РЕДАКТИРОВАТЬ: Трагедия! Мои первоначальные предположения были неверны! (Или, по крайней мере, сомневаетесь - доверяете ли вы тому, что говорит вам продавец? Тем не менее, также, как и Мортену). Что, я думаю, является еще одним хорошим введением в статистику, но теперь добавлен частичный подход к листам ( так как людям, похоже, нравится весь лист, и, возможно, кто-то все равно найдет это полезным).
Прежде всего, большая проблема. Но я хотел бы сделать это немного сложнее.
Поэтому, прежде чем я это сделаю, позвольте мне сделать это немного проще и сказать - метод, который вы используете прямо сейчас, совершенно разумен . Это дешево, это легко, это имеет смысл. Так что, если вам нужно придерживаться этого, вы не должны чувствовать себя плохо. Просто убедитесь, что вы выбираете свои пакеты случайно. И, если вы можете просто все достоверно взвесить (как подсказка whuber и user777), то вам следует это сделать.
Причина, по которой я хочу сделать это немного сложнее, заключается в том, что у вас уже есть - вы просто не рассказали нам обо всех сложностях, а именно: счет требует времени, а время - это тоже деньги . Но как много ? Может быть, на самом деле дешевле посчитать все!
Итак, что вы на самом деле делаете, так это балансируете время, необходимое для подсчета, и сумму денег, которую вы экономите. (ЕСЛИ, конечно, вы играете в эту игру только один раз. В следующий раз, когда у вас это случится с продавцом, он, возможно, поймал и попробовал новый трюк. В теории игр, это разница между Single Shot Games и Iterated Игры. Но сейчас давайте представим, что продавец всегда будет делать то же самое.)
Еще одна вещь, прежде чем я доберусь до оценки, хотя. (И, извините, что написал так много и до сих пор не получил ответ, но тогда это довольно хороший ответ на вопрос «Что бы сделал статистик?». Они потратили бы огромное количество времени, чтобы убедиться, что понимают каждую крошечную часть проблемы. прежде чем они успели что-нибудь сказать по этому поводу.) И эта мысль основана на следующем:
(РЕДАКТИРОВАТЬ: ЕСЛИ ОНИ В НАСТОЯЩЕМ ОБОРУДОВАНИИ ...) Ваш продавец не экономит деньги, удаляя этикетки - он экономит деньги, не печатая листы. Они не могут продавать ваши этикетки кому-то еще (я полагаю). И, может быть, я не знаю, и я не знаю, если вы делаете, они не могут напечатать половину листа ваших вещей, и половину листа кого-то еще. Другими словами, прежде чем вы даже начнете считать, вы можете предположить, что общее количество меток тоже 9000, 9100, ... 9900, or 10,000
. Вот как я сейчас подойду к этому.
Метод полного листа
Когда проблема немного сложнее, чем эта (дискретная и ограниченная), многие статистики будут симулировать то, что может произойти. Вот что я смоделировал:
# The number of sheets they used
sheets <- sample(90:100, 1)
# The base counts for the stacks
stacks <- rep(90, 100)
# The remaining labels are distributed randomly over the stacks
for(i in 1:((sheets-90)*100)){
bucket <- sample(which(stacks!=100),1)
stacks[bucket] <- stacks[bucket] + 1
}
Это дает вам, при условии, что они используют целые листы, и ваши предположения верны, возможное распределение ваших меток (на языке программирования R).
Тогда я сделал это:
alpha = 0.05/2
for(i in 4:20){
s <- replicate(1000, mean(sample(stacks, i)))
print(round(quantile(s, probs=c(alpha, 1-alpha)), 3))
}
Это находит, используя метод "начальной загрузки", доверительные интервалы, используя 4, 5, ... 20 выборок. Другими словами, в среднем, если бы вы использовали N выборок, насколько большим был бы ваш доверительный интервал? Я использую это, чтобы найти интервал, который достаточно мал, чтобы определить количество листов, и это мой ответ.
Под «достаточно малым» я подразумеваю, что мой доверительный интервал 95% содержит только одно целое число - например, если мой доверительный интервал был из [93.1, 94.7], то я бы выбрал 94 в качестве правильного числа листов, так как мы знаем это целое число.
Иная сложность - ваша уверенность зависит от правды . Если у вас 90 листов, а в каждой стопке 90 ярлыков, вы сходитесь очень быстро. То же самое с 100 листов. Итак, я посмотрел на 95 листов, где существует наибольшая неопределенность, и обнаружил, что для уверенности в 95% необходимо в среднем около 15 образцов. Итак, в общем, вы хотите взять 15 образцов, потому что никогда не знаете, что там на самом деле.
После того, как вы знаете, сколько образцов вам нужно, вы знаете, что ожидаемая экономия составляет:
100Nmissing−15c
c500−15∗
Но вы должны также обвинить парня за то, что он заставил вас делать всю эту работу!
(РЕДАКТИРОВАТЬ: ДОБАВЛЕНО!) Частичный листовой подход
Итак, давайте предположим, что то, что говорит производитель, является правдой, и это не преднамеренно - несколько этикеток просто теряются на каждом листе. Вы все еще хотите знать, сколько этикеток, в целом?
Эта проблема отличается тем, что у вас больше нет правильного решения, которое вы можете принять, - это было преимуществом для предположения о полном листе. Раньше было только 11 возможных ответов - сейчас их 1100, и получение 95% -ного доверительного интервала для точного количества лейблов, вероятно, будет брать гораздо больше выборок, чем вы хотите. Итак, давайте посмотрим, можем ли мы думать об этом по-другому.
Поскольку в действительности вы принимаете решение, мы по-прежнему упускаем несколько параметров - сколько денег вы готовы потерять в одной сделке и сколько стоит подсчет одного стека. Но позвольте мне настроить то, что вы могли бы сделать, с этими цифрами.
Повторяя симуляцию (хотя и поддерживает user777, если вы можете сделать это без!), Информативно смотреть на размер интервалов при использовании различного количества выборок. Это можно сделать так:
stacks <- 90 + round(10*runif(100))
q <- array(dim=c(17,2))
for(i in 4:20){
s <- replicate(1000, mean(sample(stacks, i)))
q[i-3,] <- quantile(s, probs=c(.025, .975))
}
plot(q[,1], ylim=c(90,100))
points(q[,2])
Что предполагает (на этот раз), что каждый стек имеет равномерно случайное количество меток от 90 до 100, и дает вам:
Конечно, если бы вещи были действительно такими, как они были смоделированы, истинное среднее значение было бы около 95 выборок на стек, что ниже, чем кажется на самом деле - это один из аргументов в пользу байесовского подхода. Но это дает вам полезное ощущение того, насколько вы более уверены в своем ответе, поскольку вы продолжаете делать выборки - и теперь вы можете явно обменивать стоимость выборки на любую сделку, касающуюся ценообразования.
Который я знаю к настоящему времени, нам всем действительно интересно услышать.