Распределение для процентных данных

11

У меня есть вопрос о правильном распределении, используемом для создания модели с моими данными. Я провел инвентаризацию леса на 50 участков, каждый из которых имеет размеры 20 х 50 м. Для каждого участка я подсчитал процент деревьев, которые затеняют землю. Каждый участок имеет одно значение в процентах для покрытия навеса. Проценты варьируются от 0 до 0,95. Я делаю модель процентного покрытия кроны деревьев ( переменная Y ) с матрицей независимых X переменных на основе спутниковых снимков и данных об окружающей среде.

Я не уверен, следует ли мне использовать биномиальное распределение, поскольку биноминальная случайная величина - это сумма n независимых испытаний (т. Е. Случайных величин Бернулли). Процентные значения не являются суммой испытаний; они фактические проценты. Должен ли я использовать гамму, даже если она не имеет верхнего предела? Должен ли я конвертировать проценты в целое число и использовать Пуассона в качестве счета? Должен ли я просто придерживаться Гаусса? Я не нашел много примеров в литературе или в учебниках, которые пытаются смоделировать проценты таким образом. Любые советы или идеи приветствуются.

Спасибо за ответ. На самом деле, бета-версия - это именно то, что мне нужно, и она подробно обсуждается в этой статье:

Eskelson, BN, Madsen, L., Hagar, JC, & Temesgen, H. (2011). Оценка растительного покрова подлеска прибрежной зоны с помощью бета-регрессии и моделей связок. Forest Science, 57 (3), 212-221.

Эти авторы используют пакет betareg в R от Cribari-Neto и Zeileis.

В следующей статье обсуждается хороший способ преобразования бета-распределенной переменной ответа, если она содержит истинные 0 и / или 1 в диапазоне процентов:

Смитсон, М. и Дж. Веркуилен, 2006. Лучшая лимонная соковыжималка? Регрессия максимального правдоподобия с бета-распределенными зависимыми переменными , Психологические методы, 11 (1): 54–71.

distributions binomial gamma-distribution

— Рон
источник

2

Задумывались ли вы об использовании дробного логита или бета-версии с нулевым раздувом ?

— Дмитрий Владимирович Мастеров

2

Спасибо за ответ. Фактически, бета-дистрибутив - это именно то, что мне нужно, и он подробно обсуждается в этой статье: Eskelson, BN, Madsen, L., Hagar, JC, & Temesgen, H. (2011). Оценка растительного покрова подлеска прибрежной зоны с помощью бета-регрессии и моделей связок. Forest Science, 57 (3), 212-221. Эти авторы используют пакет betareg в R от Cribari-Neto и Zeileis. В следующей статье обсуждается хороший способ преобразования бета-распределенной переменной ответа, когда она содержит истинные 0 и / или 1 в диапазоне процентов: Smithson, M. и J. Verkuilen, 2006. Лучший лимон

7

Вы правы в том, что биномиальное распределение предназначено для дискретных пропорций, которые возникают из числа «успехов» конечного числа испытаний Бернулли, и что это делает распределение неуместным для ваших данных. Вы должны использовать гамма-распределение, деленное на сумму этой гаммы плюс еще одна гамма. То есть вы должны использовать бета-дистрибутив для моделирования непрерывных пропорций.

У меня есть пример бета-регрессии в моем ответе здесь: Удалите влияние фактора на данные непрерывной пропорции, используя регрессию в R .

$0$ $(0,\ 1)$ . Это вызывает вопрос о том, что следует делать с такими значениями. Некоторые идеи можно почерпнуть из этой отличной ветки резюме: как мало нужно добавить количество к x, чтобы избежать записи 0?

— gung - Восстановить Монику
источник

3

Может ли бета-дистрибуция обрабатывать нули?

— Дмитрий Васильевич Мастеров

1

Значения в процентах представляют показатели, не зависящие от количества выборок. Вы хотели бы использовать эти проценты в качестве зависимой переменной и спутниковые изображения в качестве пояснительной переменной. Однако я думаю, что не все из 50 участков в инвентаре имели одинаковое количество образцов. Подходящая модель, которая связывает эти проценты с другими переменными, должна учитывать эту неопределенность в измерении, давая больший вес на графиках с высокими выборками.

Кроме того, распределение ошибок в случае ваших данных явно биномиальное. Дисперсия ошибки наименьшая на границах, она фиксируется биномиальным распределением.

Все это кажется мне архетипическим примером использования GLM с моделью биномиальной ошибки.

«Статистика: Введение с использованием R», глава 14 Кроули, обсуждает именно эту тему и как ее анализировать с помощью R.

— бонобо
источник

4

Биномиальное распределение является распределением числа успехов от известного числа испытаний Бернулли. Ваш комментарий о том, что «тот факт, что испытания Бернулли также описываются биномиальным распределением, не означает, что все, что описывается биномиальным распределением, должно соответствовать структуре Бернулли», неверно. Биномиальное распределение не подходит для непрерывных пропорций. Кроме того, я предложил не гамма-дистрибутив, а бета-дистрибутив.

— gung - Восстановить Монику

1

да, вы совершенно правы

— Бонобо