Как правило, одна из возможностей регрессионного моделирования заключается в том, что вы можете сгладить области, в которых нет данных, хотя, как вы заметили, иногда возникают проблемы с оценкой параметров. Я бы сказал, что если вы получаете такие вещи, как бесконечные стандартные ошибки, самое время пересмотреть свой подход к моделированию.
Одно конкретное предостережение: существует разница между «отсутствием счета» в определенных слоях и невозможностью учета количества в этих слоях. Например, представьте, что вы работаете над исследованием психологических расстройств военно-морского флота США, скажем, в период с 2000 по 2009 год, и у вас есть бинарные регрессионные термины как «Является женщиной», так и «Служит на подводной лодке». Модель регрессии может быть в состоянии оценить эффекты, где обе переменные = 1, несмотря на то, что счетчик нулей, где оба = 1. Однако этот вывод не будет действительным - такое обстоятельство невозможно. Эта проблема называется «непозитивностью» и иногда является проблемой в сильно стратифицированных моделях.
glm
рутина рухнула бы, если бы она не могла справиться с нулями. ты пробовал это?