Что такое распределение логов?

11

Я читаю учебник по машинному обучению (Data Mining by Witten, et al., 2011) и наткнулся на этот отрывок:

... Кроме того, могут использоваться разные дистрибутивы. Хотя нормальное распределение обычно является хорошим выбором для числовых атрибутов, оно не подходит для атрибутов, которые имеют заранее определенный минимум, но не имеют верхней границы; в этом случае «логарифмический» дистрибутив является более подходящим. Числовые атрибуты, которые ограничены сверху и снизу, могут моделироваться распределением «log-odds» .

Я никогда не слышал об этом распределении. Я погуглил на «распределение лог-шансов», но не смог найти никакого точного соответствия. Кто-нибудь может мне помочь? Что это за распределение и почему оно помогает с числами, ограниченными сверху и снизу?

PS Я инженер-программист, а не статистика.

machine-learning distributions

— stackoverflowuser2010
источник

14

почему это помогает с числами, ограниченными сверху и снизу?

Распределение, определенное на делает его подходящим в качестве модели для данных на . Я не думаю, что текст подразумевает нечто большее, чем «это модель для данных о » (или, в более общем смысле, о ). $(0,1)$ $(0,1)$ $(0,1)$ $(a,b)$

что это за распределение ...?

Термин «распределение логарифмов», к сожалению, не совсем стандартный (и даже тогда не очень распространенный).

Я расскажу о некоторых возможностях того, что это может означать. Начнем с рассмотрения способа построения распределений для значений в единичном интервале.

Обычным способом моделирования непрерывной случайной величины в является бета-распределение , а распространенным способом моделирования дискретных пропорций в является масштабированный бином ( , по крайней мере, когда это счет). $P$ $(0,1)$ $[0,1]$ $P=X/n$ $X$

Альтернативой использованию бета-распределения было бы взять некоторый непрерывный обратный CDF ( ) и использовать его для преобразования значений в в реальную линию (или реальную реальную половину линии). а затем используйте любое соответствующее распределение ( ) для моделирования значений в преобразованном диапазоне. Это открывает много возможностей, поскольку любая пара непрерывных распределений на вещественной прямой ( ) доступна для преобразования и модели. $F^{-1}$ $(0,1)$ $G$ $F,G$

Так, например, преобразование log-odds (также называемое logit ) будет одним из таких обратных преобразований cdf (являющихся обратным CDF стандартной логистики ) , а затем есть много дистрибутивов , мы могли бы рассмотреть в качестве моделей для . $Y=\log(\frac{P}{1-P})$ $Y$

Затем мы могли бы использовать (например) логистическую модель для , простого двухпараметрического семейства на вещественной прямой. Преобразование обратно в посредством обратного преобразования log-odds (то есть ) дает двухпараметрическое распределение для , которое может быть унимодальный, или U-образный, или J-образный, симметричный или наклонный, во многом чем-то вроде бета-распределения (лично я бы назвал это logit-logistic, так как его logit является logistic). Вот несколько примеров для различных значений : $(\mu,\tau)$ $Y$ $(0,1)$ $P=\frac{\exp(Y)}{1+\exp(Y)}$ $P$ $\mu,\tau$

$\hspace{1.5cm}$ введите описание изображения здесь

Глядя на краткое упоминание в тексте Witten et al., Это может быть то, что подразумевается под «распределением лог-шансов», но они могут так же легко означать что-то другое.

Другая возможность состоит в том, что logit-normal был предназначен.

Однако этот термин, по-видимому, использовался van Erp & van Gelder (2008) , например, для обозначения преобразования log-odds в бета-распределении (таким образом, в действительности, принимая за логистику и как распределение логарифма бета-простой случайной величины или, что эквивалентно, распределение разности логарифмов двух случайных величин хи-квадрат). Тем не менее, они используют это, чтобы сделать пропорции подсчета моделей , которые являются дискретными. Это, конечно, приводит к некоторым проблемам (вызванным попыткой смоделировать распределение с конечной вероятностью в 0 и 1 с одним на $^{[1]}$ $F$ $G$ $(0,1)$ ), на что они, кажется, тратят много сил. (Казалось бы, легче просто избежать неуместной модели, но, возможно, это только я.)

Несколько других документов (я нашел по крайней мере три) ссылаются на примерное распределение log-odds (то есть в масштабе выше) как «распределение log-odds» (в некоторых случаях, когда - дискретная пропорция *, а в некоторых случаи, когда это непрерывная пропорция) - так что в этом случае это не модель вероятности как таковая, но это то, к чему вы могли бы применить некоторую модель распределения на реальной линии. $Y$ $P$

* опять же, проблема в том, что если равно 0 или 1, значение будет равно или соответственно ... что говорит о том, что мы должны ограничить распределение от 0 и 1, чтобы использовать его для этой цели , $P$ $Y$ $-\infty$ $\infty$

В диссертации Яна Го (2009 г.) этот термин используется для обозначения логистического распределения, правостороннего распределения на реальной полуоси. $^{[2]}$

Итак, как вы видите, это не термин с одним значением. Без более четких указаний от Виттена или одного из других авторов этой книги нам остается только догадываться, что предполагается.

[1]: Ноэль ван Эрп и Питер ван Гелдер, (2008),
"Как интерпретировать распределение бета в случае поломки",
Материалы 6-го международного вероятностного семинара , Дармштадт
pdf link

[2]: Ян Го, (2009 г.),
«Новые методы оценки возможностей и надежности модулей NDE»,
представленные в аспирантуру Уэйнского государственного университета, Детройт, Мичиган

— Glen_b - Восстановить Монику
источник

1

(+1) Поиск всей книги показывает, что никаких разъяснений не ожидается. Контекст предполагает, что «распределение log-odds» относится к некоторой конкретной модели, так же как «lognormal» предлагается в предыдущем предложении как универсальное распределение для всех неотрицательных значений (!).

— whuber

1

@whuber Я согласен с вашей характеристикой того, что в книге - я не намеревался, чтобы мои комментарии, относящиеся к использованию этого термина в других контекстах для ссылки на образец распределения, подразумевали, что это было целью книги, но только как указание на то, что это термин с несколькими значениями. В рассматриваемых отрывках я советую людям, изучающим этот материал (как и по многим вещам), прочитать несколько книг.

— Glen_b

2

Я инженер-программист (не статистик), и недавно я прочитал книгу под названием «Введение в статистическое обучение». С приложениями в R.

Я думаю, что вы читаете о log-odds или logit. страница 132

http://www-bcf.usc.edu/~gareth/ISL/ISLR%20Fourth%20Printing.pdf

Блестящая книга - я читаю ее от корки до корки. Надеюсь это поможет

— JasonEdinburgh
источник

Спасибо за указатель. Предполагая, что распределение log-odds аналогично «логистическому распределению», я посмотрел последнее в Википедии. Похоже, что его PDF не имеет нижней или верхней границы. Поэтому мне все еще интересно, почему в учебнике, который я цитировал, изначально говорилось, что «Числовые атрибуты, которые ограничены сверху и снизу, могут быть смоделированы» с этим распространением.

— stackoverflowuser2010

Я думаю, что, возможно, речь идет о выводе функции, где границы от 0,0 (невозможно) до 1,0 (определенно). (Я мог бы быть совершенно не прав здесь)

— JasonEdinburgh

Вполне возможно, что ваша модель может привести к сколь угодно большим положительным или отрицательным результатам. Они не могут быть интерпретированы с точки зрения ограниченного диапазона, такого как вероятность, но могут быть интерпретированы как лог-шансы с использованием функции logit и ее обратной функции логистики.

— Генри