Наиболее важной является логика, лежащая в основе модели. Ваша переменная «количество патентов в год» является переменной подсчета, поэтому указывается регрессия Пуассона. Это GLM (обобщенная линейная модель) с (обычно) функцией логарифмической связи, в то время как обычная линейная регрессия представляет собой гауссовскую GLM с тождественной связью. Здесь действительно важна функция лог-линка, более важная, чем распределение ошибок (Пуассона или Гаусса).
Переменная «Патенты» является обширной переменной: см. Интенсивные и расширенные свойства . Для интенсивных переменных, таких как температура, часто подходят линейные модели (с идентификационной связью). Но с обширной переменной это не так. Подумайте, что одна из ваших фармацевтических компаний разделена на две разные компании. Затем патенты пришлось разделить между двумя новыми компаниями. Что происходит с ковариабельными переменными, в вашей регрессии? Переменные, такие как количество сотрудников и бюджет RD также должны быть разделены.x
В широком смысле в этом контексте интенсивная переменная - это переменная, которая не зависит от размера компании, в то время как обширная переменная зависит (как правило, линейно) от размера компании. Таким образом, в некотором смысле, если в уравнении регрессии имеется много различных обширных переменных, мы неоднократно измеряем размерные эффекты . Это кажется излишним, поэтому мы должны стараться, когда это возможно, выражать переменные в интенсивной форме , например, бюджет RD на сотрудника (или в процентах от общего бюджета), аналогично доходу и т. Д. Переменная, такая как количество сотрудников, должна быть оставлена как обширна. См. Ответ @ onestop на « Работа с коррелированными регрессорами» для другого обсуждения этой обширной / интенсивной проблемы переменных.
Давайте посмотрим на это алгебраически:
- Патенты, Бюджет (на сотрудника), Сотрудники в оригинальной компании, в то время как
P 1 , B 1 , E 1 и P 2 , B 2 , E 2 - соответствующие переменные после Трещина. Предположим, как и выше, что E - единственная обширная ковариабельная переменная (с P , конечно, также обширная).P,B,EP1,B1,E1P2,B2,E2EP
Затем, перед разделением, мы имеем модель, тождественную связь со случайной частью:
Пусть доли разделения будут α , 1 - α, поэтому для компании 1 после разделения мы получим
α P
P=μ+β1E+β2B
α,1−α ,
так как
P1=& alphaP,E1=& alphaEно
B1=B. Аналогично для компании два. Таким образом, модель довольно сложно зависит от размера компании, только коэффициент регрессии на
EαPP1=αμ+αβ1E+αβ2B=αμ+β1E1+αβ2B1
п1знак равно α P, E1= α EВ1= BЕнезависимость от размера компании, размер влияет на все остальные параметры. Это затрудняет интерпретацию результатов, особенно если в ваших данных есть компании различного размера, как вы будете интерпретировать эти коэффициенты? Сравнение с другими исследованиями, основанными на других данных и т. Д., Становится чрезвычайно сложным.
Теперь давайте посмотрим, может ли помочь использование функции ссылки на журнал. Опять же, мы пишем идеализированные модели без членов возмущения. Переменные, как указано выше.
Во-первых, модель до разделения:
После разделения для первой компании получаем:
P 1
п= опыт( μ + β1Е+ β2Б )
п1п1= опыт( журнала ) эксп( μ + β1Е+ β2Б )= опыт( журналα + μ + β1Е+ β2В1)
Е
п= опыт( μ + β1журналЕ+ β2Б )
п1п1п1п1= опыт( журнала ) эксп(μ + β1журналЕ+ β2Б )= опыт( журналα+μ+β1logE+β2B1)=exp((1−β)logα+μ+β1logE1+β2B1)=exp(μ′+β1logE1+β2B1)
μ′
Это значительно упрощает интерпретацию результатов, а также сравнение с исследованиями с использованием других данных, тенденций во времени и так далее. Вы не можете получить эту форму с параметрами с независимыми от размера интерпретациями с помощью идентификационной ссылки.
Вывод: используйте GLM с функцией логарифмической ссылки, возможно, регрессию Пуассона, или отрицательно-биномиальную, или ... Функция связи на несколько порядков важнее!
Подводя итог, при построении регрессионной модели для переменной ответа, которая является обширной , как переменная подсчета.
Попробуйте выразить ковариабельные в интенсивной форме.
Ковариабельные переменные, которые нужно оставить как можно более обширными: записать их в журнал (приведенная выше алгебра зависит от того, что существует не более одной расширенной ковариабельной переменной).
Используйте функцию связи журнала.
Затем другие критерии, такие как критерии, основанные на соответствии, могут использоваться для вторичных решений, таких как распределение члена нарушения.