Предположим, я хочу построить модель, чтобы предсказать какое-то соотношение или процент. Например, скажем, я хочу предсказать количество мальчиков и девочек, которые будут присутствовать на вечеринке, и особенности вечеринки, которые я могу использовать в модели, такие как количество рекламы для вечеринки, размер места проведения, есть ли будет ли алкоголь на вечеринке и т. д. (Это всего лишь выдуманный пример; функции не очень важны.)
Мой вопрос: в чем разница между прогнозированием соотношения в процентах и как меняется моя модель в зависимости от того, какой выбор я выбрал? Один лучше другого? Является ли какая-то другая функция лучше одной (Меня не особо интересует конкретное соотношение отношения к проценту; я просто хочу иметь возможность определить, какие вечеринки с большей вероятностью будут «партией» по сравнению с «девичниками».) Например, я мышление:
- Если я хочу предсказать процент (скажем,
# boys / (# boys + # girls)
тогда, так как моя зависимая особенность ограничена между 0 и 1, я, вероятно, должен использовать что-то вроде логистической регрессии вместо линейной регрессии). - Если я хочу предсказать соотношение (скажем,
# boys / # girls
или# boys / (1 + # girls)
избежать ошибок деления на ноль), то моя зависимая особенность положительна, поэтому я должен применить какое-то преобразование (log?) Перед использованием линейной регрессии? (Или какая-то другая модель? Какие регрессионные модели используются для положительных данных без учета?) - Лучше ли вообще прогнозировать (скажем) процент вместо соотношения, и если да, то почему?