Скрещенные случайные эффекты и несбалансированные данные

Я моделирую некоторые данные, где я думаю, что у меня есть два скрещенных случайных эффекта. Но набор данных не сбалансирован, и я не уверен, что нужно сделать, чтобы учесть это.

Мои данные - это набор событий. Событие происходит, когда клиент встречается с поставщиком для выполнения задачи, которая является успешной или нет. Существуют тысячи клиентов и поставщиков, и каждый клиент и поставщик участвует в разном количестве событий (примерно от 5 до 500). У каждого клиента и поставщика есть уровень квалификации, и вероятность того, что задание выполнено успешно, зависит от навыков обоих участников. Между клиентами и поставщиками нет совпадений.

Меня интересуют соответствующие различия в населении клиентов и поставщиков, чтобы мы могли знать, какой источник больше влияет на показатель успеха. Я также хочу знать конкретные значения навыков среди клиентов и поставщиков, для которых у нас есть данные, чтобы определить лучших / худших клиентов или поставщиков.

Изначально я хочу предположить, что вероятность успеха определяется исключительно уровнями навыков клиента и поставщика, без каких-либо других фиксированных эффектов. Итак, если предположить, что x является фактором для клиента, а y является фактором для поставщика, то в R (с использованием пакета lme4) у меня есть модель, указанная как:

  glmer( success ~ (1 | x) + (1 | y), family=binomial(), data=events)

Одна из проблем заключается в том, что клиенты не равномерно распределены между поставщиками. Клиенты с более высокими навыками чаще сталкиваются с поставщиками более высоких навыков. Насколько я понимаю, случайный эффект должен быть не коррелирован с любыми другими предикторами в модели, но я не уверен, как это объяснить.

Кроме того, некоторые клиенты и поставщики имеют очень мало событий (менее 10), в то время как другие имеют много (до 500), поэтому существует большой разброс в количестве данных, которые мы имеем на каждого участника. В идеале это должно быть отражено в «доверительном интервале» вокруг оценки навыков каждого участника (хотя я думаю, что термин доверительный интервал здесь не совсем корректен).

Будут ли скрещенные случайные эффекты представлять проблему из-за несбалансированных данных? Если да, то какие еще подходы я должен рассмотреть?

r mixed-model random-effects-model logistic

— colonel.triq
источник

Что касается несбалансированных данных, glmer способен работать с несбалансированными группами: это было фактически целью разработки смешанных модельных подходов по сравнению с ANOVA с повторными измерениями, которые ограничены сбалансированными проектами. Включать клиентов или поставщиков с несколькими событиями (даже только одним) все же лучше, чем пропускать их, поскольку это улучшает оценку остаточной дисперсии (см. Martin et al. 2011 ).

Если вы хотите использовать BLUP ( ranef(model)) в качестве прокси для навыков, вам действительно придется оценить неопределенность вокруг ваших точечных прогнозов. Это может быть сделано в рамках фрейтиста с использованием ranef(model, postVar=TRUE)или через апостериорное распределение в байесовской структуре. Однако вы не должны использовать BLUP в качестве переменной ответа в других моделях регрессии: см. Hadfield et al. (2010) приведены примеры неправильного использования BLUP и различных методов для адекватного учета их неопределенности.

Что касается соотношения навыков между клиентами и поставщиками, этот дисбаланс может быть проблематичным, если он очень сильный, так как он помешает правильно оценить дисперсию из-за каждого случайного эффекта. Кажется, не существует структуры смешанных моделей, которая бы легко справлялась с корреляцией между случайными перехватами ( формальное выражение вашей проблемы см. Здесь ). Не могли бы вы уточнить, насколько коррелируют средние успехи клиентов и поставщиков?

— Шарлотта Р
источник

Большое спасибо за решение одного из моих старых вопросов. Ответ по-прежнему актуален, и руководство и ссылки приветствуются. Извините, что я так долго это заметил! Я отметил это решено.

— colonel.triq