Я хотел бы использовать данные подсчета в качестве ковариат при подборе модели логистической регрессии. Мой вопрос:
- Нарушаю ли я какое-либо предположение о логистической (и, в целом, об обобщенной линейной) модели, используя в качестве независимых переменных неотрицательные целочисленные переменные?
Я нашел много ссылок в литературе относительно использования данных подсчета в качестве результата, но не в качестве ковариат; см., например, очень четкую статью: «Н. Е. Бреслоу (1996 г.) Обобщенные линейные модели: проверка предположений и усиление выводов, Конгрессно-национальное общество Италии, Кортона, июнь 1995 г.», доступное по адресу http://biostat.georgiahealth.edu/~dryu. /course/stat9110spring12/land16_ref.pdf .
Грубо говоря, предположения glm могут быть выражены следующим образом:
- остатки iid;
- функция связи должна правильно представлять отношения между зависимыми и независимыми переменными;
- отсутствие выбросов
Всем ли известно, существует ли какая-либо другая допущение / техническая проблема, которая может предложить использование какого-либо другого типа моделей для работы с ковариатами числа?
Наконец, обратите внимание, что мои данные содержат относительно небольшое количество выборок (<100), и что диапазоны счетных переменных могут варьироваться в пределах 3-4 порядка (т.е. некоторые переменные имеют значение в диапазоне 0-10, в то время как другие переменные могут иметь значения в 0-10000).
Ниже приведен простой пример кода R:
\###########################################################
\#generating simulated data
var1 <- sample(0:10, 100, replace = TRUE);
var2 <- sample(0:1000, 100, replace = TRUE);
var3 <- sample(0:100000, 100, replace = TRUE);
outcome <- sample(0:1, 100, replace = TRUE);
dataset <- data.frame(outcome, var1, var2, var3);
\#fitting the model
model <- glm(outcome ~ ., family=binomial, data = dataset)
\#inspecting the model
print(model)
\###########################################################