Какие преимущества имеет пуассоновская регрессия по сравнению с линейной регрессией в этом случае?


12

Мне дали набор данных, который содержит количество наград, заработанных учащимися в одной средней школе, где предикторами количества полученных наград являются тип программы, в которую был зачислен учащийся, и балл по их итоговому экзамену по математике.

Мне было интересно, может ли кто-нибудь сказать мне, почему модель линейной регрессии может быть непригодной в этом случае и почему было бы лучше использовать пуассоновскую регрессию? Спасибо.

Ответы:


14

Три момента о регрессии Пуассона против нормальной, все о спецификации модели:

Влияние изменений в предикторах

С непрерывным предиктором, таким как оценка по математике, регрессия Пуассона (с обычной ссылкой журнала) подразумевает, что единичное изменение в предикторе приводит к процентному изменению числа наград, т.е. еще 10 баллов по математическому тесту связаны, например, с 25 процентами больше наград. Это зависит от количества наград, которые студент, по прогнозам, уже получит. Напротив, нормальная регрессия связывает еще 10 баллов с фиксированной суммой, скажем, еще 3 награды при любых обстоятельствах. Вы должны быть довольны этим предположением, прежде чем использовать модель, которая его делает. (Я думаю, это очень разумно, по модулю следующий пункт.)

Работа со студентами без наград

Если на многих учеников не будет действительно много наград, то количество наград в основном будет довольно низким. На самом деле я бы предсказал нулевую инфляцию, то есть большинство студентов не получают никакой награды, поэтому множество нулей, а некоторые хорошие студенты получают немало наград. Это противоречит предположениям модели Пуассона и, по крайней мере, так же плохо для модели Нормала.

Если у вас есть приличный объем данных, то модель с «нулевым раздуванием» или «препятствие» будет естественной. Это две модели, связанные друг с другом: одна для прогнозирования того, получит ли студент какие-либо награды, а другая для прогнозирования того, сколько она получит, если вообще получит какую-либо награду (обычно это какая-то модель Пуассона). Я ожидаю, что все действие будет в первой модели.

Награда эксклюзивность

Напоследок небольшой пункт о наградах. Если награды являются исключительными, то есть, если один студент получает награду, то другие студенты не могут получить награду, тогда ваши результаты связаны; один счет для студента а уменьшает возможный счет каждого другого. Стоит ли беспокоиться об этом, зависит от структуры вознаграждений и численности студентов. Я проигнорировал бы это при первом проходе.

В заключение, Пуассон удобно доминирует в Normal, за исключением очень больших подсчетов, но проверьте допущения Пуассона, прежде чем опираться на него для умозаключений, и будьте готовы перейти к более сложному модельному классу в случае необходимости.


9

Регрессия Пуассона была бы более подходящей в этом случае, потому что ваш ответ является подсчетом чего-то.

Проще говоря, мы моделируем, что распределение количества наград для отдельного студента происходит из распределения Пуассона, и что у каждого студента есть свой параметр poisson. Затем регрессия Пуассона связывает этот параметр с объясняющими переменными, а не с количеством.λ

Причина, по которой это лучше, чем обычная линейная регрессия, связана с ошибками. Если наша модель верна, и у каждого учащегося есть своя , то для данной можно ожидать распределения чисел Пуассона вокруг нее - то есть асимметричного распределения. Это означает, что необычно высокие значения не так удивительны, как необычно низкие.λλ

Нормальная линейная регрессия предполагает нормальные ошибки вокруг среднего и, следовательно, одинаково взвешивает их. Это говорит о том, что если у студента ожидаемое количество наград, равное 1, вероятность получения -2 наград для них так же высока, как и на 3 присуждения: это явно бессмыслица и то, к чему стремится пуассон.


8

Обычная регрессия наименьших квадратов вознаграждений по предикторам будет давать согласованные оценки параметров, пока условное среднее вознаграждения является линейным в предикторах. Но это часто неадекватно, поскольку позволяет прогнозируемому числу наград быть отрицательным (даже для «разумных» значений предикторов), что не имеет смысла. Люди часто пытаются исправить это, взяв естественный журнал наград и используя OLS. Но это терпит неудачу, так как некоторые студенты не получают вознаграждений, поэтому вы должны использовать что-то вроде , но это создает свои собственные проблемы, так как вы, вероятно, заботитесь о наградах, и повторное преобразование нетривиально.ln(awards+0.5)

Кроме того, поскольку ожидаемое количество наград становится очень большим, OLS должен работать лучше по причинам, изложенным @Corone. На озере Вобегон OLS - это путь.

Если ожидаемое число низкое, с большим количеством нулей, я бы использовал Пуассона с устойчивыми стандартными ошибками по отрицательной биномиальной модели. NB регрессия делает сильные предположения о дисперсии, которые появляются в условиях первого порядка, которые производят коэффициенты. Если эти предположения не выполняются, сами коэффициенты могут быть загрязнены. Это не так с Пуассоном.


4

@corone поднимает хорошие моменты, но учтите, что Пуассон действительно очень асимметричен только тогда, когда мала. Даже для = 10 это довольно симметрично, например.λλ

set.seed(12345)
pois10 <- rpois(1000, 10)
plot(density(pois10))
library(moments)
skewness(pois10)

показывает асимметрию 0,31, что довольно близко к 0.

Мне также нравятся баллы @conjugateprior. По моему опыту, регрессия Пуассона редко подходит; Я обычно использую отрицательную биномиальную модель или модель с нулевым раздуванием.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.