Обрамление отрицательного биномиального распределения для секвенирования ДНК

16

Отрицательное биномиальное распределение стало популярной моделью для подсчета данных (в частности, ожидаемое количество считываний секвенирования в пределах данной области генома из данного эксперимента) в биоинформатике. Объяснения различаются:

Некоторые объясняют это как то, что работает как распределение Пуассона, но имеет дополнительный параметр, предоставляющий больше свободы для моделирования истинного распределения с дисперсией, не обязательно равной среднему
Некоторые объясняют это как взвешенную смесь распределений Пуассона (с распределением гамма-смешения по параметру Пуассона)

Есть ли способ привести эти логические обоснования в соответствие с традиционным определением отрицательного биномиального распределения, которое моделирует число успехов испытаний Бернулли, прежде чем увидеть определенное количество неудач? Или я должен просто думать об этом как о счастливом совпадении, что взвешенная смесь распределений Пуассона с распределением гамма-смешивания имеет ту же функцию вероятности, что и отрицательный бином?

— Майкл Хоффман
источник

2

Это также составное распределение Пуассона, где вы суммируете число логарифмических случайных величин, распределенных по Пуассону.

— Дуглас Заре

8

IMOH, я действительно думаю, что отрицательное биномиальное распределение используется для удобства.

Таким образом, в RNA Seq существует распространенное предположение, что если вы проведете бесконечное количество измерений одного и того же гена в бесконечном количестве повторов, то истинное распределение будет логнормальным. Это распределение затем отбирается с помощью процесса Пуассона (с подсчетом), поэтому истинное распределение, считываемое на ген по репликатам, будет распределением Пуассона-Логнормала.

Но в используемых нами пакетах, таких как EdgeR и DESeq, это распределение моделируется как отрицательное биномиальное распределение. Это не потому, что парни, которые написали это, не знали о распределении Poisson Lognormal.

Это связано с тем, что с распределением Пуассона Логнормала работать ужасно, потому что для его подгонки требуется числовая интеграция и т. Д. Поэтому, когда вы на самом деле пытаетесь его использовать, иногда производительность действительно плохая.

Негативное биномиальное распределение имеет закрытую форму, поэтому с ним намного проще работать, а гамма-распределение (базовый дистрибутив) очень похоже на логнормальное распределение, поскольку иногда оно выглядит нормально и иногда имеет хвост.

Но в этом примере (если вы верите предположению) это не может быть теоретически правильным, потому что теоретически правильное распределение является логнормальным по Пуассону, и эти два распределения являются разумными приближениями друг друга, но не эквивалентны.

Но я все еще думаю, что «неправильное» отрицательное биномиальное распределение часто является лучшим выбором, потому что эмпирически это даст лучшие результаты, потому что интеграция выполняется медленно, а подгонки могут работать плохо, особенно с распределениями с длинными хвостами.

— Michele
источник

7

Я просмотрел несколько веб-страниц и не смог найти объяснения, но я нашел одну для целых значений . Предположим, у нас есть два радиоактивных источника, независимо генерирующих альфа- и бета-частицы со скоростями и соответственно. $r$ $\alpha$ $\beta$

Каково распределение числа альфа-частиц перед й бета-частицей? $r$

Рассматривайте альфа-частицы как успехи, а бета-частицы как неудачи. Когда частица обнаружена, то вероятность того, что альфа - частица является . Итак, это отрицательное биномиальное распределение $\frac{\alpha}{\alpha+\beta}$ . $\text{NB}(r,\frac{\alpha}{\alpha+\beta})$
$t_r$ $r$ $\Gamma(r,1/\beta).$ $t_r = \lambda/\alpha$ $t_r$ $\text{Pois}(\lambda).$ $r$

Это объясняет, почему эти распределения равны.

— Дуглас Заре
источник

2

Я могу предложить только интуицию, но само гамма-распределение описывает (непрерывное) время ожидания (сколько времени занимает редкое событие). Поэтому тот факт, что гамма-распределенная смесь дискретных распределений Пуассона привела бы к дискретному времени ожидания (испытания до сбоев N), не кажется слишком удивительным. Я надеюсь, что у кого-то есть более формальный ответ.

Редактировать: я всегда оправдывал отрицательный биномиальный дист. для секвенирования следующим образом: Фактическим этапом секвенирования является просто выборка считываний из большой библиотеки молекул (пуассона). Однако эта библиотека сделана из исходного образца методом ПЦР. Это означает, что исходные молекулы усиливаются экспоненциально. А гамма-распределение описывает сумму k независимых экспоненциально распределенных случайных величин, т. Е. Сколько молекул в библиотеке после амплификации k образцов молекул за то же количество циклов ПЦР.

Отсюда негативные биномиальные модели ПЦР с последующим секвенированием.

— Феликс Шлезингер
источник

Это имеет смысл, но в контексте измерения количества считываний последовательности в геноме есть интуитивное объяснение того, что представляет период ожидания в отрицательном биномиальном распределении? В этом случае нет периода ожидания - он просто измеряет количество считываний последовательности.

— RobertF

Смотрите мое редактирование. Я не вижу, как мышление об этом с точки зрения времени ожидания соответствует настройке последовательности. Гамма-пуассоновую смесь легче интерпретировать. Но в конце концов это одно и то же.

— Феликс Шлезингер

2

Хорошо, тогда, возможно, реальный вопрос в том, по какому совпадению моделирование k успехов + r неудач в испытаниях Бернулли следует гамма-пуассоновской смеси? Может быть, отрицательное биномиальное моделирование k успехов + r отказов можно рассматривать как чрезмерно рассредоточенный Пуассон dbn из-за множества возможных перестановок испытаний на успех и неудачу, приводящих к точно k наблюдаемым успехам и r наблюдаемым сбоям, которые можно описать как совокупность отдельный дбнс?

— RobertF

2

Я попытаюсь дать упрощенную механистическую интерпретацию, которая мне показалась полезной, если подумать об этом.

Предположим, у нас есть идеальный равномерный охват генома до подготовки библиотеки, и мы наблюдаем $\mu$ читает покрытие сайта в среднем. Скажем, что секвенирование - это процесс, который выбирает оригинальный фрагмент ДНК, подвергает его стохастическому процессу, который проходит ПЦР, субдискретизацию и т. Д., И на частоте создает основу из фрагмента $p$ и провал в противном случае. Если последовательность продолжается до $\mu\frac{1-p}{p}$ неудачи, это может быть смоделировано с отрицательным биномиальным распределением, $NB(\mu\frac{1-p}{p}, p)$ ,

Подсчитав моменты этого распределения, мы получим ожидаемое количество успехов $\mu\frac{1-p}{p}\frac{p}{1-p} = \mu$ как требуется. Для дисперсии числа успехов получаем $\sigma^2 = \mu(1-p)^{-1}$ - скорость, с которой подготовка библиотеки терпит неудачу для фрагмента, увеличивает дисперсию в наблюдаемом покрытии.

Хотя приведенное выше является несколько искусственным описанием процесса секвенирования, и можно было бы создать надлежащую генеративную модель этапов ПЦР и т. Д., Я думаю, что это дает некоторое представление о происхождении параметра избыточной дисперсии $(1-p)^{-1}$ непосредственно из отрицательного биномиального распределения. Я предпочитаю модель Пуассона с интегрированной скоростью в качестве объяснения в целом.

— Леопольд Части
источник