Работа с 0,1 значениями в бета-регрессии

20

У меня есть некоторые данные в [0,1], которые я хотел бы проанализировать с помощью бета-регрессии. Конечно, что-то нужно сделать, чтобы приспособить значения 0,1. Мне не нравится изменять данные, чтобы соответствовать модели. Кроме того, я не верю, что нулевая и 1 инфляция - это хорошая идея, потому что я считаю, что в этом случае следует рассматривать 0 как очень маленькие положительные значения (но я не хочу точно сказать, какое значение является подходящим. Разумный выбор Я полагаю, что стоит выбрать небольшие значения, такие как .001 и .999, и подогнать модель, используя совокупный dist для бета-версии. Поэтому для наблюдений y_i логарифмическая вероятность LL_i будет

 if  y_i < .001   LL+=log(cumd_beta(.001))
 else if y_i>.999  LL+=log(1.0-cum_beta(.999))
 else LL+=log(beta_density(y_i))

Что мне нравится в этой модели, так это то, что если модель бета-регрессии действительна, эта модель также действительна, но она устраняет некоторую чувствительность к экстремальным значениям. Однако это кажется таким естественным подходом, что мне интересно, почему я не нахожу никаких очевидных ссылок в литературе. Поэтому мой вопрос заключается в том, чтобы вместо изменения данных, почему бы не изменить модель. Изменение данных смещает результаты (исходя из предположения, что исходная модель действительна), тогда как изменение модели путем объединения экстремальных значений не смещает результаты.

Может быть, есть проблема, которую я пропускаю?

— Дейв Фурнье
источник

1

На самом деле невозможно дать хороший ответ на этот вопрос, не зная больше о конкретной проблеме. Ключевой вопрос заключается в том, генерируются ли точные нули и единицы другим процессом, отличным от того, который генерирует данные в (0,1). Классическим примером является дождь, где есть точные нули, отражающие дни, когда не идет дождь. В вашем приложении нули и "особенные" в некотором роде?

— Дикран Marsupial

Похожие / дубликаты: stats.stackexchange.com/questions/48028 .

— говорит амеба, восстанови Монику

16

Согласно этой статье , соответствующее преобразование

x^{'} = \frac{x (N - 1) + s}{N}

$x' = \frac{x(N-1) + s}{N}$

«где N - размер выборки, а s - постоянная между 0 и 1. С байесовской точки зрения s действует так, как если бы мы принимали во внимание априор. Разумным выбором для s будет .5».

Это позволит сжать данные, которые лежат в в . Приведенная выше цитата и математическая причина преобразования доступны в дополнительных примечаниях к статье . $[0,1]$ $(0,1)$

— Cam.Davidson.Pilon
источник

1

+1 .. Но не могли бы вы исправить первую ссылку или хотя бы привести статью, чтобы мы могли найти ее самостоятельно?

— whuber

1

Но это не отвечает на мой вопрос. Я хорошо знаю, что можно преобразовать данные. Мои вопросы: почему бы не преобразовать модель вместо этого?

— Дэйв Фурнье

1

Дэйв, затем, пожалуйста, отредактируйте свой вопрос, чтобы отразить это: в настоящее время он выглядит так, как будто вы ищете способ преобразования данных . В этом процессе вам поможет указать, что, по вашему мнению, является различием между преобразованием данных и изменением модели, потому что, если оно есть, оно является тонким.

— whuber

@davefournier, если вы читаете бумажные сайты Cam, это частично отвечает на ваш вопрос. Они также дают альтернативные модельные рекомендации (см. Стр. 69), а часть рекомендаций зависит от характера данных. Ваша скорректированная вероятность выглядит как «смешанный дискретно-непрерывный процесс» (упомянутый ближе к концу страницы 69). Может также случиться, что модель Тобита будет удовлетворительной, учитывая ваши данные, хотя было бы лучше увидеть другие ссылки на уместность модели Тобита, например, книгу Скотта Лонга о категориальной регрессии.

— Энди W

1

Но они не принимают этот подход. Они предлагают другую модель, смешанный дискретный непрерывный процесс. Это очень отличается от объединения экстремальных значений. Как я уже говорил, если бета-модель действительна, то модель биннинга действительна. Если дискретная непрерывная модель действительна, то бета-модель недействительна. Я подозреваю, что в своем анализе они главным образом руководствовались типами смешанных моделей, которые они могли бы приспособить к своему программному обеспечению. Смешанная бета-модель немного сложнее в установке.

— Дэйв Фурнье

3

Дэйв,

Общий подход к этой проблеме состоит в том, чтобы подобрать 2 модели логистической регрессии, чтобы предсказать, является ли случай 0 или 1. Затем для тех, кто находится в диапазоне (0,1), используется бета-регрессия.

— B_Miner
источник

не могли бы вы привести пример? или документ, обсуждающий это более подробно?

— user1607

2

$(\log(x), \log(1-x))$

$x$ $(x,x^2)$

Я полагаю, что оба легко оцениваются байесовским способом, так как они являются экспоненциальными семействами. Это модификация модели, как вы и надеялись.

— Нил Г
источник

1

Я думаю, что настоящий «правильный» ответ на этот вопрос - бета-регрессия с нулевой раздувкой. Это разработано для обработки данных, которые непрерывно изменяются в интервале [0,1], и позволяет множеству реальных 0 и 1 быть в данных. Этот подход подходит для трех отдельных моделей в байесовском контексте, аналогично тому, что предлагал @B_Miner.

Модель 1. Является ли значение дискретным 0/1 или значением в (0,1)? Подходит с распределением Бернулли.

Модель 2: Подгонка дискретного подмножества с распределением Бернулли.

Модель 3: Подгонка (0,1) подмножества с бета-регрессией.

Для прогнозирования результаты первой модели могут использоваться для взвешивания прогнозов моделей 2 и 3. Это может быть реализовано в zoibпакете R или в домашних условиях в BUGS / JAGS / STAN / и т.д.

— Colin
источник