Хорошая посадка и какую модель выбрать линейную регрессию или Пуассона

Мне нужны некоторые советы относительно двух основных дилемм в моем исследовании, которое представляет собой исследование трех крупных фармацевтических препаратов и инноваций. Количество патентов в год является зависимой переменной.

Мои вопросы

Каковы наиболее важные критерии для хорошей модели? Что более / менее важно? Это то, что большинство или все переменные будут значимыми? Это проблема "F STATISTIC"? Это значение «Скорректированный R в квадрате»?
Во-вторых, как я могу выбрать наиболее подходящую модель для исследования? Помимо патентов, которые являются переменной подсчета (так что, может быть, счет Пуассона), у меня есть пояснительные переменные, такие как рентабельность активов, бюджет на исследования и разработки, повторный партнер (%, а не двоичная переменная), размер компании (сотрудники) и еще пара. Должен ли я сделать линейную регрессию или Пуассона?

— Nitzan
источник

Кжетил дал хороший подробный ответ. Более быстрое и более короткое мнение, согласующееся с его аргументом, состоит в том, что то, что вы называете «вторым», является действительно важным вопросом. То, что вы упоминаете в первую очередь, является случайным.

— Ник Кокс,

Наиболее важной является логика, лежащая в основе модели. Ваша переменная «количество патентов в год» является переменной подсчета, поэтому указывается регрессия Пуассона. Это GLM (обобщенная линейная модель) с (обычно) функцией логарифмической связи, в то время как обычная линейная регрессия представляет собой гауссовскую GLM с тождественной связью. Здесь действительно важна функция лог-линка, более важная, чем распределение ошибок (Пуассона или Гаусса).

Переменная «Патенты» является обширной переменной: см. Интенсивные и расширенные свойства . Для интенсивных переменных, таких как температура, часто подходят линейные модели (с идентификационной связью). Но с обширной переменной это не так. Подумайте, что одна из ваших фармацевтических компаний разделена на две разные компании. Затем патенты пришлось разделить между двумя новыми компаниями. Что происходит с ковариабельными переменными, в вашей регрессии? Переменные, такие как количество сотрудников и бюджет RD также должны быть разделены. $x$

В широком смысле в этом контексте интенсивная переменная - это переменная, которая не зависит от размера компании, в то время как обширная переменная зависит (как правило, линейно) от размера компании. Таким образом, в некотором смысле, если в уравнении регрессии имеется много различных обширных переменных, мы неоднократно измеряем размерные эффекты . Это кажется излишним, поэтому мы должны стараться, когда это возможно, выражать переменные в интенсивной форме , например, бюджет RD на сотрудника (или в процентах от общего бюджета), аналогично доходу и т. Д. Переменная, такая как количество сотрудников, должна быть оставлена как обширна. См. Ответ @ onestop на « Работа с коррелированными регрессорами» для другого обсуждения этой обширной / интенсивной проблемы переменных.

Давайте посмотрим на это алгебраически: - Патенты, Бюджет (на сотрудника), Сотрудники в оригинальной компании, в то время как и - соответствующие переменные после Трещина. Предположим, как и выше, что - единственная обширная ковариабельная переменная (с , конечно, также обширная). $P, B, E$ $P_1, B_1, E_1$ $P_2, B_2, E_2$ $E$ $P$

Затем, перед разделением, мы имеем модель, тождественную связь со случайной частью: Пусть доли разделения будут поэтому для компании 1 после разделения мы получим

P = μ + β_{1} E + β_{2} B

$P= \mu+\beta_1 E + \beta_2 B$

α, 1 - α

$\alpha, 1-\alpha$

, так как

но

. Аналогично для компании два. Таким образом, модель довольно сложно зависит от размера компании, только коэффициент регрессии на

\begin{aligned} α P & = α μ + α β_{1} E + α β_{2} B \\ P_{1} & = α μ + β_{1} E_{1} + α β_{2} B_{1} \end{aligned}

$\begin{align} \alpha P &= \alpha \mu +\alpha\beta_1 E +\alpha\beta_2 B \\[5pt] P_1 &= \alpha\mu + \beta_1 E_1 + \alpha\beta_2 B_1 \end{align}$

P_{1} = α P, E_{1} = α E

$P_1=\alpha P, E_1=\alpha E$

B_{1} = B

$B_1=B$

E

$E$ независимость от размера компании, размер влияет на все остальные параметры. Это затрудняет интерпретацию результатов, особенно если в ваших данных есть компании различного размера, как вы будете интерпретировать эти коэффициенты? Сравнение с другими исследованиями, основанными на других данных и т. Д., Становится чрезвычайно сложным.

Теперь давайте посмотрим, может ли помочь использование функции ссылки на журнал. Опять же, мы пишем идеализированные модели без членов возмущения. Переменные, как указано выше.

Во-первых, модель до разделения: После разделения для первой компании получаем:

п знак равно ехр (μ + β_{1} Е + β_{2} В)

$P = \exp\left(\mu+\beta_1 E + \beta_2 B\right)$

\begin{aligned} п_{1} & знак равно ехр (журнал α) ехр (μ + β_{1} Е + β_{2} В) \\ п_{1} & знак равно ехр (журнал α + μ + β_{1} Е + β_{2} В_{1}) \end{aligned}

$\begin{align} P_1 &= \exp(\log\alpha) \exp\left(\mu+\beta_1 E + \beta_2 B\right) \\[5pt] P_1 &= \exp\left(\log\alpha+\mu+\beta_1 E +\beta_2 B_1 \right) \end{align}$

E

$E$

п знак равно ехр (μ + β_{1} журнал Е + β_{2} В)

$P = \exp\left(\mu+\beta_1 \log E + \beta_2 B\right)$

\begin{aligned} P_{1} & = \exp (\log α) \exp (μ + β_{1} \log E + β_{2} B) \\ P_{1} & = \exp (\log α + μ + β_{1} \log E + β_{2} B_{1}) \\ P_{1} & = \exp ((1 - β) \log α + μ + β_{1} \log E_{1} + β_{2} B_{1}) \\ P_{1} & = \exp (μ^{'} + β_{1} \log E_{1} + β_{2} B_{1}) \end{aligned}

$\begin{align} P_1 &= \exp(\log\alpha) \exp\left(\hspace{9.5mm}\mu+\beta_1 \log E + \beta_2 B\right) \\[5pt] P_1 &= \exp\left(\log\alpha+\hspace{6mm}\hspace{9.5mm}\mu+\beta_1 \log E +\beta_2 B_1 \right) \\[5pt] P_1 &= \exp\left((1-\beta)\log\alpha+\mu+\beta_1 \log E_1 +\beta_2 B_1\right) \\[5pt] P_1 &= \exp\left(\hspace{31mm}\mu'+\beta_1 \log E_1 +\beta_2 B_1\right) \end{align}$

μ^{'}

$\mu'$

Это значительно упрощает интерпретацию результатов, а также сравнение с исследованиями с использованием других данных, тенденций во времени и так далее. Вы не можете получить эту форму с параметрами с независимыми от размера интерпретациями с помощью идентификационной ссылки.

Вывод: используйте GLM с функцией логарифмической ссылки, возможно, регрессию Пуассона, или отрицательно-биномиальную, или ... Функция связи на несколько порядков важнее!

Подводя итог, при построении регрессионной модели для переменной ответа, которая является обширной , как переменная подсчета.

Попробуйте выразить ковариабельные в интенсивной форме.
Ковариабельные переменные, которые нужно оставить как можно более обширными: записать их в журнал (приведенная выше алгебра зависит от того, что существует не более одной расширенной ковариабельной переменной).
Используйте функцию связи журнала.

Затем другие критерии, такие как критерии, основанные на соответствии, могут использоваться для вторичных решений, таких как распределение члена нарушения.

— Къетил б Халворсен
источник

Я думал, что регрессия Пуассона была регрессией GLS с функцией связи журнала?

— Сайд-шоу Боб

Обычно да, но вы также можете рассмотреть регрессию Пуассона с тождественной (или другой, например, квадратным корнем) связью. Но мой аргумент показывает, что обычно вам нужна ссылка на журнал.

— kjetil b halvorsen

@ kjetil b halvorsen, что

(1 - β)

$(1-\beta)$ в исправлении

μ

$\mu$ срок?

— Гарей