Непрерывное обобщение отрицательного биномиального распределения

Отрицательное биномиальное (NB) распределение определяется на неотрицательных целых числах и имеет функцию вероятности массыИмеет ли смысл рассматривать непрерывное распределение на неотрицательных вещественных числах, определенных той же формулой (заменив на )? Биномиальный коэффициент может быть переписан как произведение , которое хорошо определено для любого реального . Таким образом, у нас будет PDF В более общем смысле, мы можем заменить биномиальный коэффициент гамма-функциями, учитывая нецелые значения :

f (k; r, p) = (\binom{k + r - 1}{k}) p^{k} (1 - p)^{r} .

$f(k;r,p)={\binom {k+r-1}{k}}p^{k}(1-p)^{r}.$

k \in N_{0}

$k\in \mathbb N_0$

x \in R_{\geq 0}

$x\in\mathbb R_{\ge 0}$

(k + 1) \cdot \dots \cdot (k + r - 1)

$(k+1)\cdot\ldots\cdot(k+r-1)$

k

$k$

f (x; r, p) \propto \prod_{i = 1}^{r - 1} (x + i) \cdot p^{x} (1 - p)^{r} .

$f(x;r,p)\propto\prod_{i=1}^{r-1}(x+i)\cdot p^{x}(1-p)^{r}.$

r

$r$

f (x; r, p) \propto \frac{Γ (x + r)}{Γ (x + 1) Γ (r)} \cdot p^{x} (1 - p)^{r} .

$f(x;r,p)\propto\frac{\Gamma(x+r)}{\Gamma(x+1)\Gamma(r)}\cdot p^{x}(1-p)^{r}.$

Это действительный дистрибутив? У него есть имя? Есть ли у него какое-либо применение? Это может быть какое-то соединение или смесь? Существуют ли замкнутые формулы для среднего значения и дисперсии (и константы пропорциональности в PDF)?

(В настоящее время я изучаю статью, в которой используется модель смеси NB (с фиксированным $r=2$ ) и подходит к ней через EM. Однако после некоторой нормализации данные являются целыми числами, то есть не целыми числами. Тем не менее, авторы применяют стандартную формулу NB для вычисления вероятность и получить очень разумные результаты, так что, кажется, все работает отлично. Я нашел это очень загадочным. Обратите внимание, что этот вопрос не о NB GLM.)

— амеба говорит восстановить монику
источник

Разве это не было бы смесью гаммы с параметром масштаба

- \log p

$-\log p$ ? Если вы развернете многочлен

Π_{i = 1}^{r - 1} (x + i)

$\Pi_{i=1}^{r-1}(x+i)$ вы просто получите

\sum_{i = 2}^{r} a_{i} x^{i - 1}

$\sum_{i=2}^ra_ix^{i-1}$ , а затем умножите на

p^{x}

$p^x$ то же самое, что и

\exp {x \log p}

$\exp\{x\log p\}$ , где

a_{i}

$a_i$ - коэффициент

x^{i - 1}

$x^{i-1}$ в полиноме и, конечно,

\log p < 0

$\log p < 0$ , поэтому похоже, что он будет преобразован в средневзвешенное значение гамма-распределений, т. е. смеси.

— jbowman

... должно быть,

i = 1

$i=1$ в сумме выше, на самом деле.

— jbowman

Поскольку зависит только от параметров, это постоянная, которая может быть поглощена пропорциональностью. Кроме того, также имеет постоянную которая может быть проигнорированным Записывая для , вы спрашиваете о плотности, пропорциональнойЭто идентифицирует как масштабный коэффициент и как параметр формы. Для интеграла это явно смесь гамма-распределений. Однако нет смысла ограничивать целыми числами.

(1 - p)^{r}

$(1-p)^r$

(\binom{x + r - 1}{x}) = Γ (x + r) / (Γ (r) Γ (x + 1))

$\binom{x+r-1}{x}=\Gamma(x+r)/(\Gamma(r)\Gamma(x+1))$

1 / Γ (r)

$1/\Gamma(r)$

p^{k} = e^{- k ρ}

$p^k=e^{-k\rho}$

ρ = - \log (p) \geq 0

$\rho=-\log(p) \ge 0$

f (x; r, ρ) = \frac{Γ (x + r)}{Γ (x + 1)} e^{- ρ x} .

$f(x;r,\rho)=\frac{\Gamma(x+r)}{\Gamma(x+1)}\,e^{-\rho x}.$

ρ

$\rho$

r

$r$

r

$r$

r

$r$

— whuber

@ Правильно. Я на самом деле использую распределение, которое непрерывно на положительных значениях и имеет точечную массу на нуле. Я считаю, что это правильный подход. Но мне предложили использовать непрерывное обобщение NB, которое могло бы иметь ненулевую вероятность в нуле и, следовательно, казалось бы, позволяло иметь дело с точными нулями. Отсюда и мой вопрос.

— говорит амеба, восстанови Монику

Я думаю, что в этом предложении может быть некоторая путаница: оно, по-видимому, связывает вероятность (то есть то, что имеет точечная масса или распределение NB в нуле) с плотностью вероятности (которая является значением будет). Ненулевая плотность не позволяет вам иметь дело с точными нулями, потому что она все еще предсказывает нулевой шанс того, что любое значение возникнет!

f (0, θ)

$f(0,\theta)$

0

$0$

— whuber

Ответы:

Это интересный вопрос. Моя исследовательская группа уже несколько лет использует дистрибутив, на который вы ссылаетесь, в нашем общедоступном программном обеспечении для биоинформатики. Насколько я знаю, у дистрибутива нет названия и нет литературы по нему. Хотя статья Чандры и др. (2012), цитируемая Аксакалом, тесно связана, распределение, которое они рассматривают, кажется, ограничивается целочисленными значениями для и они, похоже, не дают явного выражения для pdf. $r$

Чтобы дать вам некоторое представление, распределение NB очень интенсивно используется в геномных исследованиях для моделирования данных по экспрессии генов, полученных из RNA-seq и связанных с ними технологий. Данные подсчета возникают как число считываний последовательности ДНК или РНК, выделенных из биологического образца, который можно сопоставить с каждым геном. Как правило, есть десятки миллионов считываний из каждого биологического образца, которые сопоставлены примерно с 25 000 генов. В качестве альтернативы можно получить образцы ДНК, из которых показания отображаются в окнах генома. Мы и другие популяризировали подход, в соответствии с которым NB glms подгоняются к считываниям последовательности для каждого гена, а эмпирические байесовские методы используются, чтобы смягчить аналогичные оценки дисперсии (дисперсия $\phi=1/r$ ). Этот подход цитировался в десятках тысяч журнальных статей в геномной литературе, поэтому вы можете понять, насколько он используется.

Моя группа поддерживает пакет программного обеспечения edgeR R, Несколько лет назад мы пересмотрели весь пакет, чтобы он работал с дробным числом, используя непрерывную версию NB pmf. Мы просто преобразовали все биномиальные коэффициенты в NB pmf в отношения гамма-функций и использовали его как (смешанный) непрерывный pdf. Мотивация для этого состояла в том, что число считываний последовательности может иногда быть дробным из-за (1) неоднозначного отображения чтений в транскриптом или геном и / или (2) нормализации подсчетов для корректировки технических эффектов. Таким образом, подсчет иногда представляет собой ожидаемый подсчет или расчетный подсчет, а не наблюдаемый подсчет. И, конечно, число считываний может быть ровно нулевым с положительной вероятностью. Наш подход гарантирует, что результаты логического вывода нашего программного обеспечения являются непрерывными в подсчетах, точно совпадая с дискретными результатами NB, когда предполагаемые подсчеты оказываются целыми числами.

Насколько я знаю, для нормализующей константы в pdf нет закрытой формы, равно как и для среднего значения или дисперсии. Если учесть, что для интеграла (постоянная Франсена-Робинсона) нет закрытой формы, становится ясно, что для интеграла от непрерывного не может быть NB pdf тоже. Однако мне кажется, что традиционные формулы среднего и дисперсии для NB должны оставаться хорошими приближениями для непрерывного NB. Кроме того, нормализующая константа должна медленно изменяться в зависимости от параметров и поэтому может игнорироваться как оказывающая незначительное влияние в расчетах максимального правдоподобия.

\int_{0}^{\infty} \frac{1}{Γ (x)} d z

$\int_0^\infty \frac{1}{\Gamma(x)}dz$

Можно подтвердить эти гипотезы путем численного интегрирования. Распределение NB возникает в биоинформатике как гамма-смесь распределений Пуассона (см. Статью с отрицательным биномиальным википедией или McCarthy et al. Ниже). Непрерывное распределение NB возникает просто путем замены распределения Пуассона на его непрерывный аналог pdf для где - нормализующая константа, обеспечивающая интегрирование плотности в 1. Предположим, например, что . Распределение Пуассона имеет pmf, равный указанному выше pdf для неотрицательных целых чисел, и при

f (x; λ) = a (λ) \frac{e^{- λ} λ^{x}}{Γ (x + 1)}

$f(x;\lambda)=a(\lambda)\frac{e^{-\lambda}\lambda^x}{\Gamma(x+1)}$

x \geq 0

$x\ge 0$

a (λ)

$a(\lambda)$

λ = 10

$\lambda=10$

λ = 10

$\lambda=10$ среднее значение и дисперсия Пуассона равны 10. Численное интегрирование показывает, что а среднее значение и дисперсия непрерывного распределения составляют от 10 до 4 значимых цифр. Таким образом, нормализующая константа фактически равна 1, а среднее значение и дисперсия почти такие же, как для дискретного распределения Пуассона. Аппроксимация улучшается еще больше, если мы добавим коррекцию непрерывности, интегрируя от до вместо 0. С коррекцией непрерывности все правильно (нормализующая постоянная равна 1, а моменты согласуются с дискретным Пуассоном) до 6 цифры.

a (10) = 1 / 0.999875

$a(10)=1/0.999875$

- 1 / 2

$-1/2$

\infty

$\infty$

В нашем пакете edgeR нам не нужно настраивать тот факт, что масса равна нулю, потому что мы всегда работаем с условными логарифмическими правдоподобиями или с логарифмическими разностями правдоподобия, а любые дельта-функции отменяют вычисления. Это типично, кстати, для glms со смешанным распределением вероятностей. В качестве альтернативы, мы могли бы считать, что распределение не имеет массы в нуле, но имеет поддержку, начинающуюся с -1/2 вместо нуля. Любая теоретическая перспектива приводит к одинаковым расчетам на практике.

Хотя мы активно используем непрерывный NB-дистрибутив, мы ничего явно не опубликовали. Статьи, приведенные ниже, объясняют подход NB к геномным данным, но не обсуждают непрерывное распределение NB в явном виде.

Таким образом, я не удивлен, что статья, которую вы изучаете, получила разумные результаты из непрерывной версии NB PDF, потому что это также наш опыт. Ключевым требованием является то, что мы должны правильно моделировать средние и дисперсии, и это будет хорошо, если данные, целочисленные или нет, демонстрируют ту же форму квадратичного отношения средней дисперсии, что и распределение NB.

Ссылки

Робинсон М. и Смит Г.К. (2008). Небольшая выборочная оценка отрицательной биномиальной дисперсии с приложениями к данным SAGE . Биостатистика 9, 321-332.

Робинсон, MD, и Смит, GK (2007). Модерируемые статистические тесты для оценки различий в количестве меток . Биоинформатика 23, 2881-2887.

Маккарти, DJ, Чен, Y, Смит, GK (2012). Анализ дифференциальной экспрессии многофакторных экспериментов RNA-Seq в отношении биологической изменчивости . Исследование нуклеиновых кислот 40, 4288-4297.

Chen, Y, Lun, ATL и Smyth, GK (2014). Анализ дифференциальной экспрессии сложных экспериментов RNA-seq с использованием edgeR. В: Статистический анализ данных о последовательностях следующего поколения, Сомнатх Датта и Даниэль С. Неттлтон (ред.), Спрингер, Нью-Йорк, стр. 51–74. Препринт

Лун, ATL, Чен, Y, и Смит, GK (2016). Это DE-licious: рецепт для анализа дифференциальной экспрессии экспериментов RNA-seq с использованием методов квази-правдоподобия в edgeR. Методы в молекулярной биологии 1418, 391-416. Препринт

Chen Y, Lun ATL и Smyth, GK (2016). От чтения к генам к путям: дифференциальный анализ экспрессии экспериментов RNA-Seq с использованием Rsubread и квази-правдоподобного конвейера edgeR . F1000, исследование 5, 1438.

— Гордон Смит
источник

Это очень полезно, @Gordon; Большое спасибо, что нашли время, чтобы написать это. Я также работаю с данными RNA-seq, поэтому ответ с этой точки зрения особенно ценен (сейчас я добавил тег [bioinformatics] к этому вопросу). Ваша работа посвящена дифференциальному выражению, в то время как моя текущая работа посвящена кластеризации (статья, которую я читал, - Harris et al., Посвященная интернейронам CA1; biorxiv ). В любом случае, позвольте мне задать вам пару небольших вопросов / разъяснений. [продолжение]

— говорит амеба Восстановить Монику

(1) Вы сказали, что непрерывный NB является гамма-смесью непрерывных пуассонов. Не могли бы вы немного рассказать об этом, возможно, показать это более явно? Я думаю, что это будет полезно для широкой аудитории. В связи с этим в комментариях к моему вопросу два человека написали, что непрерывный NB должен быть смесью гамм с параметром масштаба , но только для целого числа . Верны ли оба взгляда? (2) Вы сказали, что дельта-функция на нуле не имеет значения для GLM. В то же время, существует большая литература по GLM с нулевым раздуванием. Как это сочетается?

- \log (p)

$-\log(p)$

r

$r$

— говорит амеба: восстанови Монику

(3) В своей практической работе вы используете ML для оценки всех параметров, включая , или заранее фиксируете на некотором конкретном значении (возможно, на одном и том же значении для всех генов?) И затем держите его постоянным? Я предполагаю, что это должно быть намного проще. (Например, NB само по себе является семейством экспоненциальной дисперсии, но только с фиксированным .)

r

$r$

r

$r$

r

$r$

— говорит амеба Reinstate Monica

@amoeba Спасибо за ссылку. (1) Вывод NB как смеси пуассонов достаточно хорошо известен и находится в наших работах, например, McCarthy et al. Вывод непрерывного NB следует только путем замены Пуассона непрерывным Пуассоном. Должен ли я добавить это к моему ответу? Сделал бы это долго. Я не понимаю, как непрерывный NB можно было бы с пользой представить в виде смеси гамм. (2) Нет, нулевая инфляция - это другое дополнительное осложнение. Мы избегаем этого осложнения в нашей работе.

— Гордон Смит

@amoeba (3) Оценим все параметры. Очень важно оценить общие дисперсии для достижения контроля частоты ошибок, и это должно быть сделано с особой тщательностью, потому что размеры выборки часто крошечные и размерность данных огромна. Мы используем сложную процедуру, которая включает скорректированный профиль вероятности (например, REML) в каждом гене, связанный с эмпирической байесовской процедурой вероятностного байесовского отношения между генами. Затем MLB glms затем устанавливаются ML с фиксированными дисперсиями. Наконец, коэффициенты проверяются с использованием F-тестов квази-правдоподобия.

— Гордон Смит

Посмотрите на эту статью: Чандра, Нимай Кумар и Дилип Рой. Непрерывная версия отрицательного биномиального распределения. Statistica 72, нет. 1 (2012): 81 .

В статье она определена как функция выживания, что является естественным подходом, так как в анализе надежности был представлен отрицательный бином:

S_{r} (x) = {\begin{cases} q^{x} & for r = 1 \\ \sum_{k = 0}^{r - 1} (\binom{x + k - 1}{k}) p^{k} q^{x} & for r = 2, 3, \dots \end{cases}

$S_r(x)=\begin{cases}q^x & \text{for}\ r=1 \\ \sum_{k=0}^{r-1}\binom {x+k-1}{k}p^kq^x & \text{for}\ r=2,3,\dots \end{cases}$ где и .

q = e^{- λ}, λ \geq 0, p + q = 1

$q=e^{-\lambda},\lambda\ge 0,p+q=1$

r \in N, r > 0

$r\in\mathbb N,r>0$

— Аксакал
источник

Благодарность! Я посмотрю на эту статью. (Это был не я, кто проголосовал.)

— амеба говорит Восстановить Монику

@amoeba, я не беспокоюсь о понижении голосов, это интернет :)

— Аксакал

(Странно, что этот ответ был отклонен ...) +1

— whuber

Хорошо иметь эту ссылку, но в идеале я хотел бы увидеть более подробное обсуждение здесь. Эта функция выживания определяет то же самое распределение как PDF в моем вопросе? (Кстати, я нахожу немного странным, что авторы используют биномиальные коэффициенты для нецелых значений .) Несколько комментариев выше указывают, что это смесь гамма-распределений (я не вижу никакого обсуждения этого в бумага); Каковы параметры этих гамм, каковы веса смеси? Имеют ли формулы NB среднее значение и дисперсию для непрерывной версии?

x

$x$

— говорит амеба: восстанови

@amoeba, бумага есть моменты, они не то же самое , как и в NB, к сожалению

— аксакал