Это интересный вопрос. Моя исследовательская группа уже несколько лет использует дистрибутив, на который вы ссылаетесь, в нашем общедоступном программном обеспечении для биоинформатики. Насколько я знаю, у дистрибутива нет названия и нет литературы по нему. Хотя статья Чандры и др. (2012), цитируемая Аксакалом, тесно связана, распределение, которое они рассматривают, кажется, ограничивается целочисленными значениями для и они, похоже, не дают явного выражения для pdf.r
Чтобы дать вам некоторое представление, распределение NB очень интенсивно используется в геномных исследованиях для моделирования данных по экспрессии генов, полученных из RNA-seq и связанных с ними технологий. Данные подсчета возникают как число считываний последовательности ДНК или РНК, выделенных из биологического образца, который можно сопоставить с каждым геном. Как правило, есть десятки миллионов считываний из каждого биологического образца, которые сопоставлены примерно с 25 000 генов. В качестве альтернативы можно получить образцы ДНК, из которых показания отображаются в окнах генома. Мы и другие популяризировали подход, в соответствии с которым NB glms подгоняются к считываниям последовательности для каждого гена, а эмпирические байесовские методы используются, чтобы смягчить аналогичные оценки дисперсии (дисперсияϕ=1/r). Этот подход цитировался в десятках тысяч журнальных статей в геномной литературе, поэтому вы можете понять, насколько он используется.
Моя группа поддерживает пакет программного обеспечения edgeR R, Несколько лет назад мы пересмотрели весь пакет, чтобы он работал с дробным числом, используя непрерывную версию NB pmf. Мы просто преобразовали все биномиальные коэффициенты в NB pmf в отношения гамма-функций и использовали его как (смешанный) непрерывный pdf. Мотивация для этого состояла в том, что число считываний последовательности может иногда быть дробным из-за (1) неоднозначного отображения чтений в транскриптом или геном и / или (2) нормализации подсчетов для корректировки технических эффектов. Таким образом, подсчет иногда представляет собой ожидаемый подсчет или расчетный подсчет, а не наблюдаемый подсчет. И, конечно, число считываний может быть ровно нулевым с положительной вероятностью. Наш подход гарантирует, что результаты логического вывода нашего программного обеспечения являются непрерывными в подсчетах, точно совпадая с дискретными результатами NB, когда предполагаемые подсчеты оказываются целыми числами.
Насколько я знаю, для нормализующей константы в pdf нет закрытой формы, равно как и для среднего значения или дисперсии. Если учесть, что для интеграла
(постоянная Франсена-Робинсона) нет закрытой формы,
становится ясно, что для интеграла от непрерывного не может быть NB pdf тоже. Однако мне кажется, что традиционные формулы среднего и дисперсии для NB должны оставаться хорошими приближениями для непрерывного NB. Кроме того, нормализующая константа должна медленно изменяться в зависимости от параметров и поэтому может игнорироваться как оказывающая незначительное влияние в расчетах максимального правдоподобия.
∫∞01Γ(x)dz
Можно подтвердить эти гипотезы путем численного интегрирования. Распределение NB возникает в биоинформатике как гамма-смесь распределений Пуассона (см. Статью с отрицательным биномиальным википедией или McCarthy et al. Ниже). Непрерывное распределение NB возникает просто путем замены распределения Пуассона на его непрерывный аналог pdf
для где - нормализующая константа, обеспечивающая интегрирование плотности в 1. Предположим, например, что . Распределение Пуассона имеет pmf, равный указанному выше pdf для неотрицательных целых чисел, и при х≥0(λ)λ=10λ=10(10)=1/0,999875-1/2∞
f(x;λ)=a(λ)e−λλxΓ(x+1)
x≥0a(λ)λ=10λ=10среднее значение и дисперсия Пуассона равны 10. Численное интегрирование показывает, что а среднее значение и дисперсия непрерывного распределения составляют от 10 до 4 значимых цифр. Таким образом, нормализующая константа фактически равна 1, а среднее значение и дисперсия почти такие же, как для дискретного распределения Пуассона. Аппроксимация улучшается еще больше, если мы добавим коррекцию непрерывности, интегрируя от до вместо 0. С коррекцией непрерывности все правильно (нормализующая постоянная равна 1, а моменты согласуются с дискретным Пуассоном) до 6 цифры.
a(10)=1/0.999875−1/2∞
В нашем пакете edgeR нам не нужно настраивать тот факт, что масса равна нулю, потому что мы всегда работаем с условными логарифмическими правдоподобиями или с логарифмическими разностями правдоподобия, а любые дельта-функции отменяют вычисления. Это типично, кстати, для glms со смешанным распределением вероятностей. В качестве альтернативы, мы могли бы считать, что распределение не имеет массы в нуле, но имеет поддержку, начинающуюся с -1/2 вместо нуля. Любая теоретическая перспектива приводит к одинаковым расчетам на практике.
Хотя мы активно используем непрерывный NB-дистрибутив, мы ничего явно не опубликовали. Статьи, приведенные ниже, объясняют подход NB к геномным данным, но не обсуждают непрерывное распределение NB в явном виде.
Таким образом, я не удивлен, что статья, которую вы изучаете, получила разумные результаты из непрерывной версии NB PDF, потому что это также наш опыт. Ключевым требованием является то, что мы должны правильно моделировать средние и дисперсии, и это будет хорошо, если данные, целочисленные или нет, демонстрируют ту же форму квадратичного отношения средней дисперсии, что и распределение NB.
Ссылки
Робинсон М. и Смит Г.К. (2008). Небольшая выборочная оценка отрицательной биномиальной дисперсии с приложениями к данным SAGE . Биостатистика 9, 321-332.
Робинсон, MD, и Смит, GK (2007). Модерируемые статистические тесты для оценки различий в количестве меток . Биоинформатика 23, 2881-2887.
Маккарти, DJ, Чен, Y, Смит, GK (2012). Анализ дифференциальной экспрессии многофакторных экспериментов RNA-Seq в отношении биологической изменчивости . Исследование нуклеиновых кислот 40, 4288-4297.
Chen, Y, Lun, ATL и Smyth, GK (2014). Анализ дифференциальной экспрессии сложных экспериментов RNA-seq с использованием edgeR. В: Статистический анализ данных о последовательностях следующего поколения, Сомнатх Датта и Даниэль С. Неттлтон (ред.), Спрингер, Нью-Йорк, стр. 51–74. Препринт
Лун, ATL, Чен, Y, и Смит, GK (2016). Это DE-licious: рецепт для анализа дифференциальной экспрессии экспериментов RNA-seq с использованием методов квази-правдоподобия в edgeR. Методы в молекулярной биологии 1418, 391-416. Препринт
Chen Y, Lun ATL и Smyth, GK (2016). От чтения к генам к путям: дифференциальный анализ экспрессии экспериментов RNA-Seq с использованием Rsubread и квази-правдоподобного конвейера edgeR . F1000, исследование 5, 1438.