Как работает распределение Пуассона при моделировании непрерывных данных и приводит ли это к потере информации?


20

Сотрудница анализирует некоторые биологические данные для своей диссертации с некоторой неприятной гетероскедастичностью (рисунок ниже). Она анализирует это по смешанной модели, но все еще имеет проблемы с остатками.

Лог-преобразование переменных ответа проясняет ситуацию и на основе обратной связи по этому вопросу, похоже, является подходящим подходом. Первоначально, однако, мы думали, что существуют проблемы в использовании преобразованных переменных со смешанными моделями. Оказывается, мы неправильно истолковали утверждение в SAS для смешанных моделей Littell & Milliken (2006), в котором указывалось, почему неуместно преобразовывать данные подсчета и затем анализировать их с помощью обычной линейной смешанной модели (полная цитата приведена ниже). ,

Подход, который также улучшил остатки, заключался в использовании обобщенной линейной модели с пуассоновским распределением. Я читал, что распределение Пуассона можно использовать для моделирования непрерывных данных (например, как обсуждалось в этом посте ), и пакеты статистики позволяют это, но я не понимаю, что происходит, когда модель подходит.

В целях понимания того, как выполняются основные расчеты, у меня возникают следующие вопросы: когда вы подгоняете распределение Пуассона к непрерывным данным, 1) округляет ли данные до ближайшего целого числа 2) приводит ли это к потере информации и 3) Когда, если вообще, уместно ли использовать модель Пуассона для непрерывных данных?

Littel & Milliken 2006, стр. 529 "преобразование данных [количества] может быть контрпродуктивным. Например, преобразование может исказить распределение эффектов случайной модели или линейность модели. Что еще более важно, преобразование данных по-прежнему оставляет возможность с отрицательным прогнозируемым числом. Следовательно, вывод из смешанной модели с использованием преобразованных данных является весьма подозрительным ".

введите описание изображения здесь


1
Как и @Tomas, я не знаю причин, по которым вы не должны преобразовывать переменные перед смешанной моделью, и я прочитал довольно много на эту тему. У меня есть книга о Рамоне и Литтеле ... на какую страницу вы ссылаетесь?
Питер Флом - Восстановить Монику

Оказывается, мы неверно истолковали утверждение на стр. 529.
Н. Брауэр

Ответы:


22

Я довольно часто оценивал непрерывные положительные регрессии Пуассона с помощью линеаризованной оценки дисперсии Хьюбера / Уайта / Сэндвича. Тем не менее, это не очень хорошая причина, чтобы что-то делать, поэтому вот некоторые реальные ссылки.

Y

Есть также некоторые обнадеживающие доказательства моделирования от Сантоса Сильвы и Тенрейро (2006), где Пуассон входит в число лучших в шоу. Это также хорошо в симуляции с большим количеством нулей в результате . Вы также можете легко сделать свою собственную симуляцию, чтобы убедить себя, что это работает в вашем случае снежинки.

Наконец, вы также можете использовать GLM с функцией связи журнала и семейством Пуассона. Это дает идентичные результаты и успокаивает реакции коленного рефлекса только с данными.

Ссылки без ссылок без ссылок:

Gourieroux, C., A. Monfort и A. Trognon (1984). «Псевдо-методы максимального правдоподобия: приложения к пуассоновским моделям», Econometrica , 52, 701-720.


2
Смотрите также эту прекрасную запись в блоге Stata, написанную Биллом Гулдом - blog.stata.com/2011/08/22/…
boscovich

1
Y

В блоге Stata есть соответствующая запись, которая предлагает дополнительные доказательства симуляции .
Дмитрий Васильевич Мастеров

6

Распределение Пуассона предназначено только для данных подсчета, пытаться снабжать его непрерывными данными - это неприятно, и я считаю, что этого не следует делать. Одна из причин в том, что вы не знаете, как масштабировать вашу непрерывную переменную. И Пуассон очень сильно зависит от масштаба! Я попытался объяснить это на простом примере здесь . Так что только по этой причине я бы не использовал Пуассона ни для чего, кроме данных подсчета.

Также помните, что GLM выполняет две функции: функцию связи (преобразование переменной ответа, запись в случае Пуассона) и невязки (распределение Пуассона в этом случае). Подумайте о биологической задаче, об остатках, а затем выберите правильный метод. Иногда имеет смысл использовать преобразование журнала, но оставайтесь с нормально распределенными остатками.

«но кажется, что общепринятым является то, что вы не должны преобразовывать данные, вводимые в смешанную модель»

Я слышу это впервые! Не имеет никакого смысла для меня вообще. Смешанная модель может быть как обычная линейная модель, только с добавленными случайными эффектами. Можете ли вы привести точную цитату здесь? На мой взгляд, если log transform проясняет ситуацию, просто используйте его!


Спасибо за помощь; то, что я считал «общепринятым мнением», было неправильным чтением Литтелла и Милликена. Я отредактировал свой вопрос и добавил цитату из L & M 2006.
N Brouwer

@NBrouwer: да, кажется, вы на самом деле неправильно истолковали это. Преобразить данные подсчета - это отвратительно, а преобразовать непрерывные данные - еще сложнее, чтобы подсчитать данные и попытаться подогнать их под Пуассона! Вот что я пытался тебе объяснить. Не делай этого. Просто трансформируйте ваши непрерывные данные, как вам нужно. Это очень часто встречается в статистике, не нужно беспокоиться об этом.
Любопытно

5

Вот еще одно замечательное обсуждение того, как использовать модель Пуассона для подбора лог-регрессий: http://blog.stata.com/2011/08/22/use-poisson-rather-than-regress-tell-a-friend/ (Я говорю другу, как подсказывает запись в блоге). Основная идея заключается в том, что мы используем только ту часть модели Пуассона, которая является лог-связью. Часть, которая требует, чтобы дисперсия была равна среднему, может быть переопределена с помощью сэндвич-оценки дисперсии. Это все для данных iid, однако; На расширения кластерной / смешанной модели правильно ссылается Дмитрий Мастеров .


1

Если проблема заключается в масштабировании дисперсии со средним значением, но у вас есть непрерывные данные, задумывались ли вы об использовании непрерывных распределений, которые могут решить проблемы, с которыми вы столкнулись. Возможно Гамма? Дисперсия будет иметь квадратичное отношение со средним - во многом как отрицательный бином.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.