Построение распределения Дирихле с гамма-распределением

Пусть $X_1,\dots,X_{k+1}$ - взаимно независимые случайные величины, каждая из которых имеет гамма-распределение с параметрами $\alpha_i,i=1,2,\dots,k+1$ показывают, что $Y_i=\frac{X_i}{X_1+\cdots+X_{k+1}},i=1,\dots,k$ , имеют совместное распределение как $\text{Dirichlet}(\alpha_1,\alpha_2,\dots,\alpha_k;\alpha_{k+1})$

Объединенный pdf из $(X_1,\dots,X_{k+1})=\frac{e^{-\sum_{i=1}^{k+1}x_i}x_1^{\alpha_1-1}\dots x_{k+1}^{\alpha_{k+1}-1}}{\Gamma(\alpha_1)\Gamma(\alpha_2)\dots \Gamma(\alpha_{k+1})}$ Затем, чтобы найти совместную pdf из $(Y_1,\dots,Y_{k+1})$ я не могу найти якобиан, т. Е. $J(\frac{x_1,\dots,x_{k+1}}{y_1,\dots,y_{k+1}})$

— Argha
источник

Посмотрите на страницы 13-14 этого документа .

@Procrastinator Большое спасибо, ваш документ - лучший ответ на мой вопрос.

— Argha

@Procrastinator - возможно, вы должны поставить это в качестве ответа, так как ОП доволен этим, и добавить пару предложений, чтобы вы не отключили предупреждение «мы хотим больше, чем одно предложение»?

— jbowman

Этот документ сейчас без ответа, потому что это 404.

— whuber

Машина

— обратного

Якобианы - абсолютные детерминанты изменения функции переменной - кажутся грозными и могут быть сложными. Тем не менее, они являются неотъемлемой и неизбежной частью расчета многомерного изменения переменной. Казалось бы, для этого ничего нет, кроме как записать матрицу производных на и выполнить расчет. $k+1$ $k+1$

Есть лучший способ. Это показано в конце в разделе «Решение». Поскольку цель этого поста - познакомить статистиков с тем, что может быть новым методом для многих, большая часть этого посвящена объяснению механизма, лежащего в основе решения. Это алгебра дифференциальных форм . (Дифференциальные формы - это то, что объединяется в нескольких измерениях.) Приведен подробный, проработанный пример, чтобы помочь сделать его более знакомым.

Фон

Более века назад математики разработали теорию дифференциальной алгебры для работы с «производными высшего порядка», которые встречаются в многомерной геометрии. Определитель является частным случаем базовых объектов, которыми манипулируют такие алгебры, которые обычно представляют собой чередующиеся полилинейные формы . Прелесть этого в том, насколько простыми могут стать вычисления.

Вот все, что вам нужно знать.

Дифференциала является выражением вида « ». Это конкатенация " " с любым именем переменной. $dx_i$ $d$
Единая форма - это линейная комбинация дифференциалов, таких как или даже . То есть коэффициенты являются функциями $dx_1+dx_2$ $x_2 dx_1 - \exp(x_2) dx_2$ переменных.
Формы можно «умножить», используя произведение клина , написанное . Это произведение антикоммутативно (также называется чередующимся ): для любых двух одноформных и , $\wedge$ $\omega$ $\eta$

$ω \land η = - η \land ω .$ $\omega \wedge \eta = -\eta \wedge \omega.$
Это умножение является линейным и ассоциативным: другими словами, оно работает в привычной манере. Непосредственным следствием является то, что $\omega \wedge \omega = -\omega \wedge \omega$ , подразумевая, что квадрат любой одной формы всегда равен нулю. Это делает умножение чрезвычайно простым!
Для целей манипулирования подынтегральные , которые появляются в расчетах вероятности, выражение , как может быть понято как , $dx_1 dx_2 \cdots dx_{k+1}$ $|dx_1\wedge dx_2 \wedge \cdots \wedge dx_{k+1}|$
Когда является функцией, то ее дифференциал задается дифференцированием: $y = g(x_1, \ldots, x_n)$

$d y = d g (x_{1}, \dots, x_{n}) = \frac{\partial g}{\partial x_{1}} (x_{1}, \dots, x_{n}) d x_{1} + \dots + \frac{\partial g}{\partial x_{1}} (x_{1}, \dots, x_{n}) d x_{n} .$ $dy = dg(x_1, \ldots, x_n) = \frac{\partial g}{\partial x_1}(x_1, \ldots, x_n) dx_1 + \cdots + \frac{\partial g}{\partial x_1}(x_1, \ldots, x_n) dx_n.$

$(y_1, \ldots, y_n) = F(x_1, \ldots, x_n) = (f_1(x_1, \ldots, x_n), \ldots, f_n(x_1, \ldots, x_n))$ is, up to sign, simply the coefficient of $dx_1\wedge \dots \wedge dx_n$ that appears in computing

d y_{1} \land \dots \land d y_{n} = d f_{1} (x_{1}, \dots, x_{n}) \land \dots \land d f_{n} (x_{1}, \dots, x_{n})

$dy_1 \wedge \cdots \wedge dy_n = df_1(x_1,\ldots, x_n)\wedge \cdots \wedge df_n(x_1, \ldots, x_n)$

after expanding each of the $df_i$ as a linear combination of the $dx_j$ in rule (5).

Example

The simplicity of this definition of a Jacobian is appealing. Not yet convinced it's worthwhile? Consider the well-known problem of converting two-dimensional integrals from Cartesian coordinates $(x, y)$ to polar coordinates $(r,\theta)$ , where $(x,y) = (r\cos(\theta), r\sin(\theta))$ . The following is an utterly mechanical application of the preceding rules, where " $(*)$ " is used to abbreviate expressions that will obviously disappear by virtue of rule (3), which implies $dr\wedge dr = d\theta\wedge d\theta = 0$ .

\begin{aligned} d x d y & = | d x \land d y | = | d (r \cos (θ)) \land d (r \sin (θ)) | \\ = | (\cos (θ) d r - r \sin (θ) d θ) \land (\sin (θ) d r + r \cos (θ) d θ | \\ = | (*) d r \land d r + (*) d θ \land d θ - r \sin (θ) d θ \land \sin (θ) d r + \cos (θ) d r \land r \cos (θ) d θ | \\ = | 0 + 0 + r \sin^{2} (θ) d r \land d θ + r \cos^{2} (θ) d r \land d θ | \\ = | r (\sin^{2} (θ) + \cos^{2} (θ)) d r \land d θ) | \\ = r d r d θ \end{aligned} .

$\eqalign{ dx dy &= |dx\wedge dy| = |d(r\cos(\theta)) \wedge d(r\sin(\theta))| \\ &= |(\cos(\theta)dr - r\sin(\theta)d\theta) \wedge (\sin(\theta)dr + r\cos(\theta)d\theta| \\ &= |(*)dr\wedge dr + (*) d\theta\wedge d\theta - r\sin(\theta)d\theta\wedge \sin(\theta)dr + \cos(\theta)dr \wedge r\cos(\theta) d\theta| \\ &= |0 + 0 + r\sin^2(\theta) dr\wedge d\theta + r\cos^2(\theta) dr\wedge d\theta| \\ &= |r(\sin^2(\theta) + \cos^2(\theta)) dr\wedge d\theta)| \\ &= r\ dr d\theta }.$

The point of this is the ease with which such calculations can be performed, without messing about with matrices, determinants, or other such multi-indicial objects. You just multiply things out, remembering that wedges are anti-commutative. It's easier than what is taught in high school algebra.

Preliminaries

Let's see this differential algebra in action. In this problem, the PDF of the joint distribution of $(X_1, X_2, \ldots, X_{k+1})$ is the product of the individual PDFs (because the $X_i$ are assumed to be independent). In order to handle the change to the variables $Y_i$ we must be explicit about the differential elements that will be integrated. These form the term $dx_1 dx_2 \cdots dx_{k+1}$ . Including the PDF gives the probability element

\begin{aligned} f_{X} (x, α) d x_{1} \dots d x_{k + 1} & \propto (x_{1}^{α_{1} - 1} \exp (- x_{1})) \dots (x_{k + 1}^{α_{k + 1} - 1} \exp (- x_{k + 1})) d x_{1} \dots d x_{k + 1} \\ = x_{1}^{α_{1} - 1} \dots x_{k + 1}^{α_{k + 1} - 1} \exp (- (x_{1} + \dots + x_{k + 1})) d x_{1} \dots d x_{k + 1} . \end{aligned}

$\eqalign{ f_\mathbf{X}(\mathbf{x},\mathbf{\alpha})dx_1 \cdots dx_{k+1} &\propto \left(x_1^{\alpha_1-1}\exp\left(-x_1\right)\right)\cdots \left(x_{k+1}^{\alpha_{k+1}-1}\exp\left(-x_{k+1}\right) \right)dx_1 \cdots dx_{k+1} \\ &= x_1^{\alpha_1-1}\cdots x_{k+1}^{\alpha_{k+1}-1}\exp\left(-\left(x_1+\cdots+x_{k+1}\right)\right)dx_1 \cdots dx_{k+1}. }$

(The normalizing constant has been ignored; it will be recovered at the end.)

Staring at the definitions of the $Y_i$ a few seconds ought to reveal the utility of introducing the new variable

Z = X_{1} + X_{2} + \dots + X_{k + 1},

$Z = X_1 + X_2 + \cdots + X_{k+1},$

giving the relationships

X_{i} = Y_{i} Z .

$X_i = Y_i Z.$

This suggests making the change of variables $x_i \to y_i z$ in the probability element. The intention is to retain the first $k$ variables $y_1, \ldots, y_k$ along with $z$ and then integrate out $z$ . To do so, we have to re-express all the $dx_i$ in terms of the new variables. This is the heart of the problem. It's where the differential algebra takes place. To begin with,

d x_{i} = d (y_{i} z) = y_{i} d z + z d y_{i} .

$dx_i = d(y_i z) = y_i dz + z dy_i.$

Note that since $Y_1+Y_2+\cdots+Y_{k+1}=1$ , then

0 = d (1) = d (y_{1} + y_{2} + \dots + y_{k + 1}) = d y_{1} + d y_{2} + \dots + d y_{k + 1} .

$0 = d(1) = d(y_1 + y_2 + \cdots + y_{k+1}) = dy_1 + dy_2 + \cdots + dy_{k+1}.$

Consider the one-form

ω = d x_{1} + \dots + d x_{k} = z (d y_{1} + \dots + d y_{k}) + (y_{1} + \dots + y_{k}) d z .

$\omega = dx_1 + \cdots + dx_k = z(dy_1 + \cdots + dy_k) + (y_1+\cdots + y_k) dz.$

It appears in the differential of the last variable:

\begin{aligned} d x_{k + 1} & = z d y_{k + 1} + y_{k + 1} d z \\ = - z (d y_{1} + \dots + d y_{k}) + (1 - y_{1} - \dots y_{k}) d z \\ = d z - ω . \end{aligned}

$\eqalign{ dx_{k+1} &= z dy_{k+1} + y_{k+1}dz \\ &= -z(dy_1 + \cdots + dy_k) + (1-y_1-\cdots y_k)dz \\ &= dz - \omega. }$

The value of this lies in the observation that

d x_{1} \land \dots \land d x_{k} \land ω = 0

$dx_1 \wedge \cdots \wedge dx_k \wedge \omega = 0$

because, when you expand this product, there is one term containing $dx_1 \wedge dx_1 = 0$ as a factor, another containing $dx_2 \wedge dx_2 = 0$ , and so on: they all disappear. Consequently,

\begin{aligned} d x_{1} \land \dots \land d x_{k} \land d x_{k + 1} & = d x_{1} \land \dots \land d x_{k} \land z - d x_{1} \land \dots \land d x_{k} \land ω \\ = d x_{1} \land \dots \land d x_{k} \land z . \end{aligned}

$\eqalign{ dx_1 \wedge \cdots \wedge dx_k \wedge dx_{k+1} &= dx_1 \wedge \cdots \wedge dx_k \wedge z - dx_1 \wedge \cdots \wedge dx_k \wedge \omega \\ &= dx_1 \wedge \cdots \wedge dx_k \wedge z. }$

Whence (because all products $dz\wedge dz$ disappear),

\begin{aligned} d x_{1} \land \dots \land d x_{k + 1} & = (z d y_{1} + y_{1} d z) \land \dots \land (z d y_{k} + y_{k} d z) \land d z \\ = z^{k} d y_{1} \land \dots \land d y_{k} \land d z . \end{aligned}

$\eqalign{ dx_1 \wedge \cdots \wedge dx_{k+1} &= (z dy_1 + y_1 dz) \wedge \cdots \wedge (z dy_k + y_k dz) \wedge dz \\ &= z^k dy_1 \wedge \cdots \wedge dy_k \wedge dz. }$

The Jacobian is simply $|z^k| = z^k$ , the coefficient of the differential product on the right hand side.

Solution

The transformation $(x_1, \ldots, x_k, x_{k+1})\to (y_1, \ldots, y_k, z)$ is one-to-one: its inverse is given by $x_i = y_i z$ for $1\le i\le k$ and $x_{k+1} = z(1-y_1-\cdots-y_k)$ . Therefore we don't have to fuss any more about the new probability element; it simply is

\begin{aligned} (z y_{1})^{α_{1} - 1} \dots (z y_{k})^{α_{k} - 1} {(z (1 - y_{1} - \dots - y_{k}))}^{α_{k + 1} - 1} \exp (- z) | z^{k} d y_{1} \land \dots \land d y_{k} \land d z | \\ = (z^{α_{1} + \dots + α_{k + 1} - 1} \exp (- z) d z) (y_{1}^{α_{1} - 1} \dots y_{k}^{α_{k} - 1} {(1 - y_{1} - \dots - y_{k})}^{α_{k + 1} - 1} d y_{1} \dots d y_{k}) . \end{aligned}

$\eqalign{ &(z y_1)^{\alpha_1-1}\cdots (z y_k)^{\alpha_k-1}\left(z(1-y_1-\cdots-y_k)\right)^{\alpha_{k+1}-1}\exp\left(-z\right)|z^k dy_1 \wedge \cdots \wedge dy_k \wedge dz| \\ &= \left(z^{\alpha_1+\cdots+\alpha_{k+1}-1}\exp\left(-z\right) dz\right)\left( y_1^{\alpha_1-1} \cdots y_k^{\alpha_k-1}\left(1-y_1-\cdots-y_k\right)^{\alpha_{k+1}-1}dy_1 \cdots dy_k\right). }$

That is manifestly a product of a Gamma $(\alpha_1+\cdots+\alpha_{k+1})$ distribution (for $Z$ ) and a Dirichlet $(\mathbf\alpha)$ distribution (for $(Y_1,\ldots, Y_k)$ ). In fact, since the original normalizing constant must have been a product of $\Gamma(\alpha_i)$ , we deduce immediately that the new normalizing constant must be divided by $\Gamma(\alpha_1+\cdots+\alpha_{k+1})$ , enabling the PDF to be written

f_{Y} (y, α) = \frac{Γ (α_{1} + \dots + α_{k + 1})}{Γ (α_{1}) \dots Γ (α_{k + 1})} (y_{1}^{α_{1} - 1} \dots y_{k}^{α_{k} - 1} {(1 - y_{1} - \dots - y_{k})}^{α_{k + 1} - 1}) .

$f_\mathbf{Y}(\mathbf{y},\mathbf{\alpha}) = \frac{\Gamma(\alpha_1+\cdots+\alpha_{k+1})}{\Gamma(\alpha_1)\cdots\Gamma(\alpha_{k+1})}\left( y_1^{\alpha_1-1} \cdots y_k^{\alpha_k-1}\left(1-y_1-\cdots-y_k\right)^{\alpha_{k+1}-1}\right).$

— whuber
источник