Сотрудница анализирует некоторые биологические данные для своей диссертации с некоторой неприятной гетероскедастичностью (рисунок ниже). Она анализирует это по смешанной модели, но все еще имеет проблемы с остатками.
Лог-преобразование переменных ответа проясняет ситуацию и на основе обратной связи по этому вопросу, похоже, является подходящим подходом. Первоначально, однако, мы думали, что существуют проблемы в использовании преобразованных переменных со смешанными моделями. Оказывается, мы неправильно истолковали утверждение в SAS для смешанных моделей Littell & Milliken (2006), в котором указывалось, почему неуместно преобразовывать данные подсчета и затем анализировать их с помощью обычной линейной смешанной модели (полная цитата приведена ниже). ,
Подход, который также улучшил остатки, заключался в использовании обобщенной линейной модели с пуассоновским распределением. Я читал, что распределение Пуассона можно использовать для моделирования непрерывных данных (например, как обсуждалось в этом посте ), и пакеты статистики позволяют это, но я не понимаю, что происходит, когда модель подходит.
В целях понимания того, как выполняются основные расчеты, у меня возникают следующие вопросы: когда вы подгоняете распределение Пуассона к непрерывным данным, 1) округляет ли данные до ближайшего целого числа 2) приводит ли это к потере информации и 3) Когда, если вообще, уместно ли использовать модель Пуассона для непрерывных данных?
Littel & Milliken 2006, стр. 529 "преобразование данных [количества] может быть контрпродуктивным. Например, преобразование может исказить распределение эффектов случайной модели или линейность модели. Что еще более важно, преобразование данных по-прежнему оставляет возможность с отрицательным прогнозируемым числом. Следовательно, вывод из смешанной модели с использованием преобразованных данных является весьма подозрительным ".