Имеют ли значения ошибки на вероятностях какое-либо значение?


25

Люди часто говорят, что какое-то событие имеет шанс 50-60%. Иногда я даже вижу, как люди дают явные полосы ошибок при назначении вероятностей. Имеют ли эти утверждения какое-либо значение или они представляют собой просто лингвистическую причину дискомфорта, выбирая конкретное число для чего-то, что по своей природе непостижимо?


1
Разве вероятностно приближенно правильная структура в вычислительной теории обучения не делает именно этого, обычно давая ограничение на частоту ошибок классификатора, который выполняется с вероятностью ? Если бы это была бессмысленная концепция, я сомневаюсь, что эти (чрезвычайно умные) люди из CoLT не смогли бы ее обнаружить! 1-δ
Дикран Сумчатый

5
@DikranMarsupial Ошибки в обучении PAC связаны не с самими вероятностями (о которых этот вопрос задается), а с данными. То есть мы называем выходные данные алгоритма «Вероятно, приблизительно правильными», если мы можем доказать, что с вероятностью ответ находится на расстоянии от истинного значения. ε1δε
Дискретная ящерица

@Discretelizard, но в условиях классификации, разве это не предел частоты ошибок (какова вероятность ошибки)? Давно я смотрел на CoLT!
Дикран Сумчатый

1
@DikranMarsupial В общих настройках PAC-обучения «приблизительная» часть измеряет «величину» ошибки, а не «вероятность». Мотивация для границ PAC - получить более детальный анализ, чем, например, ожидаемый риск. Я не думаю, что это меняет настройку классификации, хотя для того, чтобы PAC имел смысл, между классами должна быть определена «дистанция» (или функция потерь). (в более частном случае бинарной классификации есть только один способ сделать ошибку, поэтому приблизительная часть не имеет смысла в этом случае)
Дискретная ящерица

Ответы:


36

Не имеет смысла, если вы говорите об известных вероятностях, например, при честной монете вероятность метания головы равна 0,5 по определению. Однако, если вы не говорите о примере из учебника, точная вероятность никогда не известна, мы знаем ее только приблизительно.

Другая история - когда вы оцениваете вероятности по данным, например, вы наблюдали 13 выигрышных билетов среди 12563 купленных вами билетов, поэтому по этим данным вы оцениваете вероятность 13/12563. Это то, что вы оценили по выборке, так что это неопределенно, потому что с другой выборкой вы можете наблюдать разные значения. Оценка неопределенности связана не с вероятностью, а с оценкой ее.

Другим примером может быть случай, когда вероятность не фиксирована, а зависит от других факторов. Скажем, что речь идет о вероятности гибели в автомобильной аварии. Мы можем рассмотреть «глобальную» вероятность, единое значение, которое маргинализируется по всем факторам, которые прямо и косвенно приводят к автомобильным авариям. С другой стороны, вы можете рассмотреть, как вероятности варьируются среди населения с учетом факторов риска.

Вы можете найти еще много примеров, когда сами вероятности рассматриваются как случайные переменные , поэтому они изменяются, а не фиксируются.


1
Если вычисление оценки вероятности было выполнено с помощью чего-то вроде логистической регрессии, также не было бы естественным предположить, что эти «погрешности» относятся к интервалам прогнозирования? (Я прошу, в основном, в качестве пояснения к первому пункту, который вы подняли, +1, очевидно)
usεr11852 говорит Восстановить Моник

1
@ usεr11852 доверительные интервалы, интервалы прогнозирования, области наибольшей плотности и т. д., в зависимости от фактического случая. Я сделал ответ очень широким, поскольку у нас есть «различные» вероятности во многих сценариях, и они различаются по-разному. Также вы можете интерпретировать их по-разному в разных сценариях.
Тим

1
Даже «известные» вероятности могут быть сокращением для очень маленьких баров ошибок. Можно предположить, что бросок монеты, возможно, составляет 50,00001% - 49,9999% при достаточном количестве попыток, чтобы получить достаточно маленькие бары ошибок, исключающие 50,00000%. Нет никакого физического закона, предполагающего, что шансы должны быть точно даже для асимметричной монеты, но столбцы ошибок слишком малы, чтобы кого-то волновать.
Ядерный Ван

5
@ NuclearWang это объясняется использованием ФП фразы «честная монета». По определению P (HEADS) для честной монеты составляет 0,5. Честная монета - это математическая конструкция. Я бы предложил правку, заменив «по законам физики» на «по определению», чтобы подчеркнуть этот момент.
De Novo поддерживает GoFundMonica

2
@DeNovo относится и к физическим монетам stat.columbia.edu/~gelman/research/published/diceRev2.pdf , но да, я сказал «честно», чтобы не начинать эту дискуссию
Тим

23

Наиболее актуальная иллюстрация из xkcd :

введите описание изображения здесь

с соответствующей подписью:

... величина эффекта 1.68 (95% ДИ: 1.56 (95% ДИ: 1.52 (95% ДИ: 1.504) (95% ДИ: 1.494 (95% ДИ: 1.488 (95% ДИ: 1.485 (95% ДИ: 1.482) (95% доверительный интервал: 1,481 (95% доверительный интервал: 1,4799) (95% доверительный интервал: 1,4791 (95% доверительный интервал: 1,4784 ...


Означает ли это, что полосы ошибок вероятностей являются избыточными?
BalinKingOfMoria

12
Помимо шутки, это означает, что точность погрешностей неопределенна и что оценка неопределенности сама по себе неопределенна, в бесконечной регрессии.
Сиань

7
Вот почему я считаю, что картина актуальна и глубоко связана с фундаментальной трудностью (и прекрасной задачей) оценки ошибок в статистике.
Сиань

14
Этот рисунок иллюстрирует мета-неопределенность , которая может быть связана с неопределенностью вероятности, поскольку сама неопределенность является мерой ширины распределения вероятности, но ваш пост не объясняет это никоим образом; на самом деле комикс XKCD предполагает, что он как-то связан с распространением ошибок (что является ложным), чего нет в вопросе.
Геррит

6

Я знаю две интерпретации. Первое было сказано Тимом: мы наблюдали Икс успехов из Y испытаний, поэтому, если мы считаем, что испытания были проведены, мы можем оценить вероятность процесса в Икс/Y с некоторыми барами ошибок, например, порядка 1/Y .

Второй включает в себя «вероятности высшего порядка» или неопределенности относительно процесса генерации. Например, скажем, у меня в руке есть монета, изготовленная игроком-ремесленником, который с вероятностью 0,5 сделал монету в 60% голов, а с вероятностью 0,5 - монету в 40%. Мое лучшее предположение - 50% -ная вероятность того, что монета выпадет в голову, но с большими барами ошибок: «истинный» шанс - 40% или 60%.

Другими словами, вы можете представить, что проводите эксперимент миллиард раз и берете долю успехов Икс/Y (фактически ограничивающую долю). Имеет смысл, по крайней мере, с байесовской точки зрения, дать, например, 95% доверительный интервал вокруг этого числа. В приведенном выше примере, учитывая текущие знания, это [0,4,0.6] . Для настоящей монеты это может быть [0,47,0,53] или что-то в этом роде. Для получения дополнительной информации см .:

Нужны ли нам вероятности высшего порядка и, если да, что они означают? Иудея Перл. UAI 1987. https://arxiv.org/abs/1304.2716


4

Все измерения являются неопределенными.

Поэтому любое измерение вероятности также является неопределенным.

Эта неопределенность при измерении вероятности может быть визуально представлена ​​с помощью индикатора неопределенности. Обратите внимание, что столбцы неопределенности часто называют столбцами ошибок. Это неверно или, по крайней мере, вводит в заблуждение, потому что показывает неопределенность, а не ошибку (ошибка - это разница между измерением и неизвестной истинностью, поэтому ошибка неизвестна; неопределенность является мерой ширины плотности вероятности после взятия измерение).

Смежная тема - мета-неопределенность . Неопределенность описывает ширину апостериорной функции распределения вероятностей, и в случае неопределенности типа А (неопределенность, оцениваемая путем повторных измерений) неизбежно возникает неопределенность относительно неопределенности; метрологи сказали мне, что метрологическая практика требует расширения неопределенности в этом случае (IIRC, если неопределенность оценивается стандартным отклонением N повторных измерений, следует умножить полученное стандартное отклонение на NN-2 ), что по сути является мета-неопределенностью.


3

Как может появиться ошибка на вероятности? Предположим, что мы можем присвоить проб(A|Θзнак равноθ,я) . Если я означает Θзнак равноθ0 , то проб(Θзнак равноθ|я)знак равноδθθ0 и

проб(A|я)знак равноΣθпроб(A|Θзнак равноθ,я)δθθ0знак равнопроб(A|Θзнак равноθ0,я)

Теперь, если Θ не может быть выведено из я , то возникает соблазн думать, что неопределенность в проб(Θзнак равноθ|я) должна приводить к неопределенности в проб(A|я) . Но это не так. Это просто подразумевает совместную вероятность для A и Θзнак равноθ , которая, когда Θ маргинализируется, дает определенную вероятность для A :

проб(A,Θзнак равноθ|я)знак равнопроб(A|Θзнак равноθ,я)проб(Θзнак равноθ|я)проб(A|я)знак равноΣθпроб(A|Θзнак равноθ,я)проб(Θзнак равноθ|я)

Таким образом, добавление погрешностей к вероятности сродни добавлению неопределенности к параметрам помех, которые могут изменить вероятность, но не могут сделать ее неопределенной.


1

Есть очень часто случаи, когда вы хотите иметь вероятность вероятности. Например, вы работали в области безопасности пищевых продуктов и использовали модель анализа выживаемости, чтобы оценить вероятность того, что споры ботулина прорастут (и, следовательно, произведут смертельный токсин) в зависимости от этапов приготовления пищи (то есть приготовления) и времени / температуры инкубации (ср. бумага). Производители продуктов питания могут затем захотеть использовать эту модель, чтобы установить безопасные сроки использования, чтобы потребительский риск ботулизма был соответственно небольшим. Однако модель подходит для конечной обучающей выборки, поэтому вместо выбора даты использования, для которой вероятность прорастания меньше, скажем, 0,001, вы можете выбрать более раннюю дату, для которой (с учетом предположений моделирования) Вы можете быть на 95% уверены, что вероятность прорастания составляет менее 0,001. Это кажется вполне естественным делом в байесовской обстановке.


0

tl; dr - Любая одноразовая догадка от конкретного гадателя может быть сведена к одной вероятности. Однако это всего лишь тривиальный случай; структуры вероятности могут иметь смысл, когда есть некоторая контекстуальная релевантность вне единственной вероятности.


Шанс случайной посадки монеты на головы составляет 50%.

Неважно, честная это монета или нет; по крайней мере, не для меня. Потому что, хотя у монеты может быть предвзятость, которую может использовать осведомленный наблюдатель, чтобы делать более обоснованные прогнозы, мне придется угадывать 50% шансов.

Моя таблица вероятностей:

Головыфрак50%50%,
But what if I tell someone that the coin has 50% odds, and then they have to make a decision about what happens on two coin flips? Lacking further information, they'd have to default to guessing that coin flips are independent events, arriving at:
First flipSecondflipHeadsTailsHeads25%25%Tails25%25%,
from which they might conclude
Same sidetwiceHeadsand Tails50%50%.
However, the coin flips aren't independent events; they're connected by a common causal agent, describable as the coin's bias.

If we assume a model in which a coin has a constant probability of Heads, PHeads, then it might be more precise to say

HeadsTailsPHeads1PHeads.
From this, someone might think
First flipSecondflipHeadsTailsHeadsPHeads2PHeads(1PHeads)TailsPHeads(1PHeads)(1PHeads)2,
from which they might conclude
Same sidetwiceHeadsand Tails12PHeads(1PHeads)2PHeads(1PHeads).
If I had to guess PHeads, then I'd still go with 50%, so it'd seem like this would reduce to the prior tables.

So it's the same thing, right?

Turns out that the odds of getting two-Heads-or-Tails is always greater than getting one-of-each, except in the special case of a perfectly fair coin. So if you do reduce the table, assuming that the probability itself captures the uncertainty, your predictions would be absurd when extended.

That said, there's no "true" coin flip. We could have all sorts of different flipping methodologies that could yield very different results and apparent biases. So, the idea that there's a consistent value of PHeads would also tend to lead to errors when we construct arguments based on that premise.

So if someone asks me the odds of a coin flip, I wouldn't say 50%", despite it being my best guess. Instead, I'd probably say probably about 50%".

And what I'd be trying to say is roughly:

If I had to make a one-off guess, I'd probably go with about 50%. However, there's further context that you should probably ask me to clarify if it's important.


People often say some event has a 50-60% chance of happening.

If you sat down with them and worked out all of their data, models, etc., you might be able to generate a better number, or, ideally, a better model that'd more robustly capture their predictive ability.

But if you split the difference and just call it 55%, that'd be like assuming PHeads=50% in that you'd basically be running with a quick estimate after having truncated the higher-order aspects of it. Not necessarily a bad tactic for a one-off quick estimate, but it does lose something.


0

Я бы сказал, что имеют значение только строки ошибок, но в данном примере все это, вероятно, почти бессмысленно.
Пример поддается интерпретации как доверительный интервал, в котором верхняя и нижняя границы некоторой степени определенности являются диапазоном вероятности. Этот предложенный ответ будет иметь дело с этой интерпретацией. Источник большинства - https://www.amazon.com/How-Measure-Anything-Intangibles-Business-ebook/dp/B00INUYS2U


В примере говорится, что при заданном уровне достоверности ответ вряд ли будет выше 60% и в равной степени вряд ли будет ниже 50%. Это настолько удобный набор чисел, что он напоминает «биннинг», в котором своп 55% дополнительно колеблется до диапазона +/- 5%. Знакомые круглые цифры сразу заподозрить.
Один из способов достижения доверительного интервала состоит в том, чтобы принять решение о выбранном уровне доверия - скажем, 90% - и мы допускаем, что это может быть либо ниже, либо выше, чем наша оценка, но существует только 10% шанс «правильный» ответ лежит за пределами нашего интервала. Таким образом, мы оцениваем более высокую оценку так, что «существует только 1/20 вероятности того, что правильный ответ будет больше этой верхней границы», и делаем аналогичное для нижней границы. Это может быть сделано с помощью «калиброванной оценки», которая является одной из форм измерения или другими формами измерения.
Независимо от этого, дело в том, чтобы: а) с самого начала признать, что с нашей неопределенностью связана неопределенность, и б) не разбрасываться руками, не называть это беспорядком и просто ставить на 5% выше и ниже. Преимущество состоит в том, что подход, строгий в выбранной степени, может дать результаты, которые все еще математически значимы, до степени, которая может быть сформулирована математически: «Существует 90% вероятности, что правильный ответ лежит между этими двумя границами ...» является правильно сформированным доверительным интервалом (CI), и его можно использовать в дальнейших расчетах.
Более того, придав ему достоверность, мы можем откалибровать метод, использованный для получения оценки, сравнивая прогнозы с результатами и действуя в соответствии с тем, что мы находим, чтобы улучшить метод оценки. Ничего нельзя сделать идеальным, но многие вещи можно сделать эффективными на 90%.
Обратите внимание, что 90% CI не имеет ничего общего с тем, что пример, приведенный в OP, содержит 10% поля и пропускает 90%.
Какой размах крыльев у Боинга 747-100, до 90% ДИ? Ну, я на 95% уверен, что это не более 300 футов, и я в равной степени уверен, что это не меньше, чем 200 футов. Так что, в довершение всего, я дам вам 90% CI 200 -235 футов.
Обратите внимание, что нет «центральной» оценки. КИ не формируются догадками и факторами выдумки. Вот почему я говорю, что столбцы ошибок, вероятно, имеют большее значение, чем данная оценка.


Тем не менее, интервальная оценка (все выше) не обязательно лучше, чем точечная оценка с правильно рассчитанной ошибкой (что мне не известно в данный момент - я только помню, что она часто делается неправильно). Я просто говорю, что многие оценки, выраженные в виде диапазонов - и я рискну, что большинство диапазонов с круглыми числами - это точки + выдумка, а не оценки интервалов или точек + ошибок.


Одно правильное использование точки + ошибка:

«Машина наполняет чашки жидкостью и должна быть отрегулирована таким образом, чтобы содержимое чашек составляло 250 г жидкости. Поскольку машина не может заполнить каждую чашку ровно 250,0 г, содержимое, добавленное в отдельные чашки, имеет некоторые различия, и считается случайной величиной X. Предполагается, что это отклонение обычно распределено вокруг желаемого среднего значения 250 г со стандартным отклонением σ 2,5 г. Чтобы определить, правильно ли откалибрована машина, образец n = 25 чашки с жидкостью выбираются случайным образом, и чашки взвешиваются. Полученные измеренные массы жидкости составляют X1, ..., X25, случайный образец из X ".

Ключевой момент: в этом примере среднее значение и ошибка указываются / предполагаются, а не оцениваются / измеряются.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.