Результаты регрессии имеют неожиданную верхнюю границу

Я пытаюсь предсказать балансовую оценку и попробовал несколько различных методов регрессии. Одна вещь, которую я заметил, заключается в том, что прогнозируемые значения имеют некоторую верхнюю границу. То есть фактический баланс находится в , но мои прогнозы достигают вершины около . На следующем графике показан фактический баланс против прогнозируемого (прогнозируется с помощью линейной регрессии): $[0.0, 1.0)$ $0.8$

фактическое против предсказанного

А вот два графика распределения одинаковых данных:

начальное распределение

Поскольку мои предикторы очень искажены (пользовательские данные с распределением по степенному закону), я применил преобразование Бокса-Кокса, которое изменило результаты следующим образом:

фактическое и предсказанное после преобразования Бокса-Кокса

распределение после преобразования Бокса-Кокса

Хотя это и изменяет распределение прогнозов, эта верхняя граница все же существует. Итак, мои вопросы:

Каковы возможные причины таких верхних границ в результатах прогнозирования?
Как я могу исправить прогнозы, чтобы они соответствовали распределению фактических значений?

Бонус: поскольку распределение после преобразования Бокса-Кокса, похоже, следует распределению преобразованных предикторов, возможно ли, что это напрямую связано? Если да, можно ли применить преобразование, чтобы оно соответствовало фактическим значениям?

Изменить: я использовал простую линейную регрессию с 5 предикторами.

— Mennny
источник

Мне действительно интересно посмотреть, куда это идет. Это просто модель линейной регрессии? Сколько предсказателей?

— Shadowtalker

Примечание: поскольку ваша исходная переменная ограничена 0 и 1, простая модель линейной регрессии, скорее всего, будет предсказывать значения за пределами этих границ, что, конечно, недопустимо. Есть и другие варианты для рассмотрения в этом случае.

— COOLSerdash

Ограниченный вход подразумевает ограниченный выход для линейной модели. Каковы границы (преобразованных) предикторов? Можете ли вы показать нам сводную таблицу подгонки модели?

— кардинал

Mennny: Все, что вам действительно нужно (для начала), это значения коэффициентов и границы предикторов. Сопоставляя знаки один за другим, вы можете быстро определить минимальное и максимальное предсказание (при условии, что предикторы всегда будут удовлетворять границам, неявно или явно).

— кардинал

@cardinal: Я проверил границы предикторов и смог подтвердить ваше предположение. Для данных (не преобразованных) предикторов максимальный прогноз составляет ~ 0,79. Можете ли вы «скопировать / вставить» свой комментарий в качестве ответа, чтобы я мог принять его? Как я могу продолжить? Я предполагаю, что это показывает, что нет никакой линейной связи между моими предикторами и результатом?

— Mennny

Ответы:

Ваш dep var ограничен от 0 до 1, и поэтому OLS не полностью подходит, например, я предлагаю бета-регрессию, и могут быть другие методы. Но во-вторых, после преобразования Бокса-Кокса вы говорите, что ваши прогнозы ограничены, но ваш график этого не показывает.

— Леонардо Ауслендер
источник

В то время как большое внимание уделяется использованию регрессий, которые подчиняются границам 0/1, и это разумно (и важно!), Конкретный вопрос о том, почему ваш LPM не предсказывает результаты, превышающие 0,8, вызывает у меня немного другой вопрос ,

В любом случае в ваших остатках есть заметная закономерность, а именно, ваша линейная модель плохо вписывается в верхнюю часть вашего распределения. Это означает, что в правильной модели есть что-то нелинейное.

Решения, которые также учитывают границы ваших данных, равные 0/1: пробит, логит и бета-регрессия. Эта граница имеет решающее значение и должна быть решена, чтобы ваша работа была строгой, учитывая ваш относительно близкий к 1 дистрибутиву и, таким образом, большое количество ответов на эту тему.

Обычно, однако, проблема в том, что LPM превышает предел 0/1. Это не тот случай, здесь! Если вас не интересует оценка 0/1 и вы активно хотите найти решение, которое может быть снабжено (x'x) ^ - 1 (x'y), то подумайте, что, возможно, модель не является строго линейной. Подгонка модели в зависимости от x ^ 2, перекрестных произведений независимых переменных или журналов независимых переменных может помочь улучшить ваше соответствие и, возможно, улучшить объяснительную силу вашей модели, чтобы она оценивала значения, превышающие 0,8.

— RegressForward
источник