Построение линейной модели для соотношения в процентах?


20

Предположим, я хочу построить модель, чтобы предсказать какое-то соотношение или процент. Например, скажем, я хочу предсказать количество мальчиков и девочек, которые будут присутствовать на вечеринке, и особенности вечеринки, которые я могу использовать в модели, такие как количество рекламы для вечеринки, размер места проведения, есть ли будет ли алкоголь на вечеринке и т. д. (Это всего лишь выдуманный пример; функции не очень важны.)

Мой вопрос: в чем разница между прогнозированием соотношения в процентах и ​​как меняется моя модель в зависимости от того, какой выбор я выбрал? Один лучше другого? Является ли какая-то другая функция лучше одной (Меня не особо интересует конкретное соотношение отношения к проценту; я просто хочу иметь возможность определить, какие вечеринки с большей вероятностью будут «партией» по сравнению с «девичниками».) Например, я мышление:

  • Если я хочу предсказать процент (скажем, # boys / (# boys + # girls)тогда, так как моя зависимая особенность ограничена между 0 и 1, я, вероятно, должен использовать что-то вроде логистической регрессии вместо линейной регрессии).
  • Если я хочу предсказать соотношение (скажем, # boys / # girlsили # boys / (1 + # girls)избежать ошибок деления на ноль), то моя зависимая особенность положительна, поэтому я должен применить какое-то преобразование (log?) Перед использованием линейной регрессии? (Или какая-то другая модель? Какие регрессионные модели используются для положительных данных без учета?)
  • Лучше ли вообще прогнозировать (скажем) процент вместо соотношения, и если да, то почему?

В зависимости от вашего конкретного приложения и того, что вы пытаетесь смоделировать, вам следует рассмотреть возможность использования Compositional Data Analysis ( en.wikipedia.org/wiki/Compositional_data ); Есть некоторые тонкие вещи, которые следует учитывать, когда характеристики (независимые переменные) суммируются в единицу. Пожалуйста, посмотрите работу Джона Эйчисона.
ctbrown

Ответы:



15

Повторяю первый ответ. Не пытайтесь конвертировать - просто смоделируйте число и ковариации напрямую.

Если вы сделаете это и подстроите биномиальную (или эквивалентно логистическую) регрессионную модель для подсчета числа мальчиков, то вы, если вы выберете обычную функцию связи для таких моделей, неявно уже подберете (сглаженное в ковариации) соотношение мальчиков и девочек. Это линейный предиктор.

Основная причина для модели рассчитывает непосредственно, а не пропорции или отношения заключается в том, что вы не теряете информацию. Интуитивно вы будете намного увереннее в выводах из наблюдаемого отношения 1 (мальчиков к девочкам), если оно будет происходить от наблюдения 100 мальчиков и 100 девочек, чем от просмотра 2 и 2. Следовательно, если у вас есть ковариаты, у вас будет больше информация об их эффектах и, возможно, лучшая прогностическая модель.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.