Я пытаюсь предсказать балансовую оценку и попробовал несколько различных методов регрессии. Одна вещь, которую я заметил, заключается в том, что прогнозируемые значения имеют некоторую верхнюю границу. То есть фактический баланс находится в , но мои прогнозы достигают вершины около . На следующем графике показан фактический баланс против прогнозируемого (прогнозируется с помощью линейной регрессии):
А вот два графика распределения одинаковых данных:
Поскольку мои предикторы очень искажены (пользовательские данные с распределением по степенному закону), я применил преобразование Бокса-Кокса, которое изменило результаты следующим образом:
Хотя это и изменяет распределение прогнозов, эта верхняя граница все же существует. Итак, мои вопросы:
- Каковы возможные причины таких верхних границ в результатах прогнозирования?
- Как я могу исправить прогнозы, чтобы они соответствовали распределению фактических значений?
Бонус: поскольку распределение после преобразования Бокса-Кокса, похоже, следует распределению преобразованных предикторов, возможно ли, что это напрямую связано? Если да, можно ли применить преобразование, чтобы оно соответствовало фактическим значениям?
Изменить: я использовал простую линейную регрессию с 5 предикторами.