При попытке определить, какого рода уравнение glm вы хотите оценить, вы должны подумать о вероятных отношениях между ожидаемым значением вашей целевой переменной, заданным для переменных правой части (rhs), и дисперсией целевой переменной, заданной для переменных rhs. Графики невязок и подгонянные значения из вашей нормальной модели могут помочь в этом. При регрессии Пуассона предполагаемое соотношение состоит в том, что дисперсия равна ожидаемой величине; довольно ограничительный, я думаю, вы согласитесь. При «стандартной» линейной регрессии предполагается, что дисперсия постоянна независимо от ожидаемого значения. Для квазипуассоновской регрессии предполагается, что дисперсия является линейной функцией среднего значения; для отрицательной биномиальной регрессии - квадратичная функция.
Тем не менее, вы не ограничены этими отношениями. Спецификация «семейства» (кроме «квази») определяет отношение средней дисперсии. У меня нет The R Book, но я предполагаю, что в ней есть таблица, которая показывает семейные функции и соответствующие отношения средней дисперсии. Для семейства «квази» вы можете указать любое из нескольких отношений средней дисперсии и даже написать свое; см документации R . Может случиться так, что вы можете найти гораздо лучшее соответствие, указав значение не по умолчанию для функции средней дисперсии в «квази» модели.
Вы также должны обратить внимание на диапазон целевой переменной; в вашем случае это неотрицательные данные подсчета. Если у вас есть значительная доля низких значений - 0, 1, 2 - непрерывные распределения, вероятно, не подойдут хорошо, но если вы этого не сделаете, использование дискретного распределения не имеет особой ценности. Редко когда вы рассматриваете распределения Пуассона и Нормала как конкурентов.