У меня есть вопрос о правильном распределении, используемом для создания модели с моими данными. Я провел инвентаризацию леса на 50 участков, каждый из которых имеет размеры 20 х 50 м. Для каждого участка я подсчитал процент деревьев, которые затеняют землю. Каждый участок имеет одно значение в процентах для покрытия навеса. Проценты варьируются от 0 до 0,95. Я делаю модель процентного покрытия кроны деревьев ( переменная Y ) с матрицей независимых X переменных на основе спутниковых снимков и данных об окружающей среде.
Я не уверен, следует ли мне использовать биномиальное распределение, поскольку биноминальная случайная величина - это сумма n независимых испытаний (т. Е. Случайных величин Бернулли). Процентные значения не являются суммой испытаний; они фактические проценты. Должен ли я использовать гамму, даже если она не имеет верхнего предела? Должен ли я конвертировать проценты в целое число и использовать Пуассона в качестве счета? Должен ли я просто придерживаться Гаусса? Я не нашел много примеров в литературе или в учебниках, которые пытаются смоделировать проценты таким образом. Любые советы или идеи приветствуются.
Спасибо за ответ. На самом деле, бета-версия - это именно то, что мне нужно, и она подробно обсуждается в этой статье:
Eskelson, BN, Madsen, L., Hagar, JC, & Temesgen, H. (2011). Оценка растительного покрова подлеска прибрежной зоны с помощью бета-регрессии и моделей связок. Forest Science, 57 (3), 212-221.
Эти авторы используют пакет betareg в R от Cribari-Neto и Zeileis.
В следующей статье обсуждается хороший способ преобразования бета-распределенной переменной ответа, если она содержит истинные 0 и / или 1 в диапазоне процентов:
- Смитсон, М. и Дж. Веркуилен, 2006. Лучшая лимонная соковыжималка? Регрессия максимального правдоподобия с бета-распределенными зависимыми переменными , Психологические методы, 11 (1): 54–71.