Есть ли «стандарт» для обозначения статистической модели?

Например, в руководстве BUGS или в следующей книге Lee and Wagenmakers ( pdf ) и во многих других местах используется тип обозначения, который мне кажется очень гибким в том смысле, что его можно использовать для краткого описания большинства статистических моделей. Примером этого обозначения является следующее:

y_{i} \sim Binomial (p_{i}, n_{i}) \log (\frac{p_{i}}{1 - p_{i}}) = b_{i} b_{i} \sim Normal (μ_{p}, σ_{p})

$y_i \sim \text{Binomial}(p_i,n_i) \\ \log(\frac{p_i}{1 - p_i}) = b_i \\ b_i \sim \text{Normal}(\mu_p,\sigma_p)$

который описал бы иерархическую логистическую модель без предикторов, но с группами. Этот способ описания моделей, по-видимому, одинаково хорошо работает для описания частых и байесовских моделей, например, чтобы сделать это описание модели полностью байесовским, вам просто нужно добавить и . $i = 1\dots n$ $\mu_p$ $\sigma_p$

Этот тип обозначения / формализма модели подробно описан в какой-то статье или книге?

Если вы хотите использовать эту нотацию для написания моделей, есть много разных способов ведения дел, и было бы очень полезно с подробным руководством, чтобы следовать и ссылаться на других. Некоторые различия, которые я нашел в том, как люди используют этот тип записи:

Что вы называете раздачей? Например, я видел и т. Д. $\mathcal{N},\text{N},\text{Norm},\text{Normal}$
Как вы справляетесь с индексами? Например, я видел , , и т. Д. $y_{ij}$ $y_{i[j]}$ $y_{j|i}$
Какие символы параметров обычно используются для параметров. Например, обычно используется в качестве среднего значения для нормального распределения, но как насчет других распределений? (Для этого я обычно проверяю раздачи википедии ) $\mu$

Дополнительный вопрос: есть ли у этой записи название? (Из-за отсутствия лучшего названия я назвал это соглашением о распределении вероятностей в блоге, который я написал ...)

references model notation

— Расмус Батх
источник

Некоторые рекомендуемые стандарты для статистической записи представлены в Halperin, Hartley and Hoel (1965) и Sanders and Pugh (1972) . Большая часть современных обозначений взята из соглашений, которые были установлены биометрическими статистиками в конце 19-го и начале 20-го века (большая часть была сделана Пирсоном и Фишером и их сотрудниками). Полезный список ранних использования обозначений поддерживается экономистом Джоном Aldrich здесь и исторический рассказ английского биометрической школы публикуется в Aldrich (2003) . (Если у вас есть дополнительные вопросы по этой теме, Олдрич , вероятно, является крупнейшим в мире живым экспертом в истории обозначений в статистике.)

Помимо этой явной работы, есть много книг, которые дают введение в области, и они осторожны, чтобы определить нотацию в соответствии с общими соглашениями, определяя нотацию, как они идут. В этой области существует множество общепринятых соглашений, которые последовательно используются в литературе, и статистики хорошо знакомы с ними на практике, даже не прочитав рекомендации этих исследователей.

Неоднозначность нотации, ориентированной на распределение: использование нотации, ориентированной на распределение, является стандартным соглашением, которое используется в статистической литературе. Тем не менее, одна интересная вещь, на которую следует обратить внимание в этой нотации, это то, что есть немного места для маневра в том, что это на самом деле означает. Стандартное соглашение состоит в том, чтобы читать объект в правой части этих утверждений как своего рода описание меры вероятности (например, функции распределения, функции плотности и т. Д.), А затем читать $\sim$ отношение со значением "... имеет распределение ..." или "... имеет меру вероятности ..." и т. д. Согласно этой интерпретации отношение сравнивает два различных набора вещей; объект с левой стороны является случайной величиной, а объект с правой стороны является описанием вероятностной меры.

Тем не менее, также одинаково правильно интерпретировать правую часть как ссылку на случайную переменную (в отличие от распределения) и отношение как означающее "... имеет такое же распределение, что и ..." , Согласно этой интерпретации отношение является отношением эквивалентности, сравнивающим случайные величины; объекты, расположенные слева и справа, являются случайными величинами, и отношение является рефлексивным, симметричным и транзитивным. $\sim$

Это дает две возможные (и одинаково действительные) интерпретации утверждения типа:

X \sim N (μ, σ^{2}) .

$X \sim \text{N}(\mu, \sigma^2).$

Распределительная интерпретация: « имеет распределение вероятностей ». Эта интерпретация принимает последний объект как некоторое описание нормальной вероятностной меры (например, ее функции плотности, функции распределения и т. Д.). $X$ $\text{N}(\mu, \sigma^2)$
Интерпретация случайной величины: « имеет такое же распределение вероятностей, что и ». Эта интерпретация принимает последний объект в качестве нормальной случайной величины. $X$ $\text{N}(\mu, \sigma^2)$

Каждая интерпретация имеет свои преимущества и недостатки. Преимущество интерпретации случайных величин заключается в том, что она использует стандартный символ для ссылки на отношение эквивалентности , но ее недостатком является то, что она требует ссылки на случайные переменные с аналогичными обозначениями для их функций распределения. Преимущество интерпретации распределения состоит в том, что она использует аналогичные обозначения для распределений в целом и их функциональных форм с заданным значением аргумента; недостатком является то, что он использует символ таким образом, чтобы это не было отношением эквивалентности. $\sim$ $\sim$

Олдрич Дж. (2003) «Язык английской биометрической школы International Statistical Review 71 (1)» , стр. 109-131.

Halperin, M., Hartley, HO and Hoel, PG (1965) Рекомендуемые стандарты для статистических символов и обозначений . Американский статистик 19 (3) , с. 12-14.

Сандерс, JR и Пью, RC (1972) Рекомендация для стандартного набора статистических символов и обозначений . Исследователь образования 1 (11) , с. 15-16.

— Бен - Восстановить Монику
источник