Пуассоновская регрессия с большими данными: неправильно ли менять единицу измерения?


17

Из-за факториала в распределении Пуассона становится непрактичным оценивать модели Пуассона (например, с использованием максимальной вероятности), когда наблюдения велики. Так, например, если я пытаюсь оценить модель для объяснения количества самоубийств в конкретном году (доступны только годовые данные) и скажу, что каждый год совершаются тысячи самоубийств, неправильно ли выражать самоубийства сотнями , так что 2998 будет 29,98 ~ = 30? Другими словами, неправильно ли менять единицу измерения, чтобы сделать данные управляемыми?

Ответы:


15

Когда вы имеете дело с распределением Пуассона с большими значениями \ lambda (его параметр), обычно используется нормальное приближение к распределению Пуассона.

Как упоминает этот сайт , вполне нормально использовать нормальное приближение, когда \ lambda превышает 20, и приближение улучшается, когда \ lambda становится еще выше.

Распределение Пуассона определяется только в пространстве состояний, состоящем из неотрицательных целых чисел, поэтому изменение масштаба и округление привнесут в ваши данные странные вещи.

Используя нормальный ок. для больших пуассоновских статистик это ОЧЕНЬ распространено.


6

В случае с Пуассоном это плохо, так как отсчеты являются отсчетами - их единица равна единице. С другой стороны, если вы используете какое-то продвинутое программное обеспечение, такое как R, его функции обработки Пуассона будут знать о таких больших числах и будут использовать некоторые числовые приемы для их обработки.

Очевидно, я согласен, что нормальное приближение - еще один хороший подход.


3

Большинство статистических пакетов имеют функцию для непосредственного вычисления натурального логарифма факториала (например, функция lfactorial () в R, функция lnfactorial () в Stata). Это позволяет вам включать постоянный термин в логарифмическую вероятность, если хотите.


Кроме того, n!= Gamma(n+1)для n> = 0. Поэтому попробуйте найти функцию, вызываемую, Gammaесли вам нужно вычислить факториал (или логарифмическую гамму, если вы рассчитываете логарифмическую вероятность)
Андре Хольцнер,

3

Боюсь, ты не сможешь этого сделать. Как утверждает @Baltimark, при большой лямбде распределение будет иметь более нормальную форму (симметричную), а при уменьшении его больше не будет расслоения Пуассона. Попробуйте следующий код в R:

poi1 = rpois(100000, lambda = 5)  # poisson
poi2 = rpois(100000, lambda = 100)/20 # scaled-down poisson
poi2_dens = density(poi2)

hist(poi1, breaks = 0:30, freq = F, ylim = range(poi2_dens$y))
lines(poi2_dens, col = "red")

Результат ниже:

введите описание изображения здесь

Вы можете видеть, что уменьшенный масштаб пуассона (красная линия) полностью отличается от распределения Пуассона.


1

Вы можете просто игнорировать «факториал» при использовании максимальной вероятности. Вот обоснование вашего примера самоубийства. Позволять:

λ: ожидаемое количество самоубийств в год

к я : количество самоубийств в году i.

Тогда вы максимизируете логарифмическую вероятность как:

LL = ∑ (k i log (λ) - λ - k i !)

Максимизация вышеупомянутого эквивалентна максимизации следующего как k i ! константа:

LL ' = ∑ (k i log (λ) - λ)

Могли бы объяснить, почему факториал является проблемой? Я что-то пропустил?


Вы не пропустите что-то, если все, что вы пытаетесь сделать, это оценить параметр из набора наблюдений. Это была определенно основная идея вопроса ОП. Тем не менее, она также спрашивала в целом (если не строго), «как оценить модели Пуассона». Возможно, она хочет знать значение PDF в конкретный момент. В этом случае нормальный ок. Вероятно, это будет лучше, чем масштабирование параметра и наблюдения на 100, или что-то еще, если наблюдения достаточно велики, чтобы сделать факториал нецелесообразным.
Балтимарк,

1
@Srikant, вы правы, чтобы оценить параметры факториала, это не проблема, но в целом вам нужно значение вероятности для данной модели, и вам придется использовать для этого факториал. Кроме того, для проверки гипотез (например, проверки отношения правдоподобия) вам понадобится значение вероятности.
Виви

@Baltimark: да, в общем, я хочу знать, действительно ли можно изменить единицу измерения Пуассона. Мне задали этот вопрос, и я не знал, что сказать.
Виви

@Vivi: я не уверен, почему вы хотите вычислить вероятность с k_i! включенная, как и в большинстве приложений (например, проверка отношения правдоподобия, байесовская оценка), постоянная значения не имеет значения. В любом случае, я не думаю, что вы можете изменить масштаб, как вы предложили. Если я чувствую иначе, я обновлю свой ответ.

@Srikant, я понимаю вашу точку зрения, но некоторые программы (например, Eviews) включают это по умолчанию, и большие числа - это проблема, нравится вам это или нет. Я думаю, что я действительно после объяснения того, почему вы можете или не можете сделать это, а не как обойти это, но обсуждение, тем не менее, было интересным и поучительным :)
Виви
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.