Два года данных, описывающих возникновение ассоциации тестирования насилия с количеством пациентов в палате

У меня есть данные за два года, которые выглядят примерно так:

Дата _ __ Насилие Y / N? _ Количество пациентов

01.01.2008 _ ___ 0 __ _ __ _ ____ 11

01.02.2008 _ __ _ 0 _ __ _ __ _ __ 11

01.03.2008 _ ____ 1 __ _ __ _ ____ 12

01.04.2008 _ ____ 0 __ _ __ _ ____ 12

...

31/12 / 2009_ _ __ 0_ _ __ _ __ _ __ 14

то есть два года наблюдений, по одному в день, в психиатрическом отделении, которые указывают, имел ли место инцидент с насилием в этот день (1 - да, 0 - нет), а также количество пациентов в отделении. Гипотеза, которую мы хотим проверить, заключается в том, что большее количество пациентов в палате связано с повышенной вероятностью насилия в палате.

Мы, конечно, понимаем, что нам придется учесть тот факт, что, когда в палате больше пациентов, насилие более вероятно, потому что их просто больше - нас интересует, повышается ли вероятность насилия каждого человека, когда в палате больше пациентов.

Я видел несколько работ, которые просто используют логистическую регрессию, но я думаю, что это неправильно, потому что есть авторегрессионная структура (хотя, если смотреть на функцию автокорреляции, она не становится выше .1 при любом отставании, хотя это выше «Значимая» синяя пунктирная линия, которую R рисует для меня).

Просто, чтобы сделать вещи более сложными, я могу, если я хочу разбить результаты на отдельных пациентов, чтобы данные выглядели так же, как и выше, за исключением того, что у меня были бы данные для каждого пациента, 01.01.2008, 2 / 1/2008 и т. Д., А также идентификационный код, идущий вниз, чтобы данные отображали всю историю происшествий для каждого пациента в отдельности (хотя не все пациенты присутствуют во все дни, не уверен, имеет ли это значение)

Я хотел бы использовать lme4 в R для моделирования авторегрессионной структуры у каждого пациента, но некоторые прибегают к гуглингу с цитатой «lme4 не настроен для работы с авторегрессионными структурами». Даже если бы это было так, я не уверен, что все равно понимаю, как писать код.

На всякий случай, если кто-то заметит, я задал такой вопрос некоторое время назад, это разные наборы данных с разными проблемами, хотя на самом деле решение этой проблемы поможет с этим (кто-то предложил мне использовать смешанные методы ранее, но эта вещь авторегрессии заставила меня не знаете, как это сделать).

Так что я немного застрял и потерян, если честно. Любая помощь с благодарностью получена!

r mixed-model autocorrelation panel-data

— Крис Били
источник

Я имею дело с подобной проблемой, я думаю , вы можете использовать pgmmиз Plm пакета , но , как переменная отклика двоичная я не знаю точно , как это сделать. Может быть, другие могут уточнить ... (И да, вы правы: мое понимание таково, что когда у вас есть эндогенная переменная, в этом случае значение с запаздыванием, вы не можете использовать REML для оценки, потому что оно смещено, поэтому вам нужно использовать GMM .)

— teucer

Вот идея, которая связывает вашу двоичную зависимую переменную с непрерывной ненаблюдаемой переменной; соединение, которое может позволить вам использовать возможности моделей временных рядов для непрерывных переменных.

Определение:

$V_{w,t} = 1$ $w$ $t$

$P_{w,t}$ $w$ $t$

$P_{w,t}$

$V_{w,t} = \begin{cases} 1 & \mbox{if } P_{w,t} \ge \tau \\ 0 & \mbox{otherwise} \end{cases}$

где,

$\tau$

$P_{w,t}$ $P_{w,t}$

$P_{w,t} = \alpha_0 + \alpha_1 P_{w,t-1} + ... + \alpha_p P_{w,t-p}+ \beta n_{w,t} + \epsilon_t$

где,

$n_{w,t}$ $w$ $t$

$\beta$

$P_{w,t}$