Результаты регрессии имеют неожиданную верхнюю границу


9

Я пытаюсь предсказать балансовую оценку и попробовал несколько различных методов регрессии. Одна вещь, которую я заметил, заключается в том, что прогнозируемые значения имеют некоторую верхнюю границу. То есть фактический баланс находится в , но мои прогнозы достигают вершины около . На следующем графике показан фактический баланс против прогнозируемого (прогнозируется с помощью линейной регрессии):[0.0,1.0)0.8

фактическое против предсказанного

А вот два графика распределения одинаковых данных:

начальное распределение

Поскольку мои предикторы очень искажены (пользовательские данные с распределением по степенному закону), я применил преобразование Бокса-Кокса, которое изменило результаты следующим образом:

фактическое и предсказанное после преобразования Бокса-Кокса

распределение после преобразования Бокса-Кокса

Хотя это и изменяет распределение прогнозов, эта верхняя граница все же существует. Итак, мои вопросы:

  • Каковы возможные причины таких верхних границ в результатах прогнозирования?
  • Как я могу исправить прогнозы, чтобы они соответствовали распределению фактических значений?

Бонус: поскольку распределение после преобразования Бокса-Кокса, похоже, следует распределению преобразованных предикторов, возможно ли, что это напрямую связано? Если да, можно ли применить преобразование, чтобы оно соответствовало фактическим значениям?

Изменить: я использовал простую линейную регрессию с 5 предикторами.


1
Мне действительно интересно посмотреть, куда это идет. Это просто модель линейной регрессии? Сколько предсказателей?
Shadowtalker

1
Примечание: поскольку ваша исходная переменная ограничена 0 и 1, простая модель линейной регрессии, скорее всего, будет предсказывать значения за пределами этих границ, что, конечно, недопустимо. Есть и другие варианты для рассмотрения в этом случае.
COOLSerdash

1
Ограниченный вход подразумевает ограниченный выход для линейной модели. Каковы границы (преобразованных) предикторов? Можете ли вы показать нам сводную таблицу подгонки модели?
кардинал

2
Mennny: Все, что вам действительно нужно (для начала), это значения коэффициентов и границы предикторов. Сопоставляя знаки один за другим, вы можете быстро определить минимальное и максимальное предсказание (при условии, что предикторы всегда будут удовлетворять границам, неявно или явно).
кардинал

1
@cardinal: Я проверил границы предикторов и смог подтвердить ваше предположение. Для данных (не преобразованных) предикторов максимальный прогноз составляет ~ 0,79. Можете ли вы «скопировать / вставить» свой комментарий в качестве ответа, чтобы я мог принять его? Как я могу продолжить? Я предполагаю, что это показывает, что нет никакой линейной связи между моими предикторами и результатом?
Mennny

Ответы:


1

Ваш dep var ограничен от 0 до 1, и поэтому OLS не полностью подходит, например, я предлагаю бета-регрессию, и могут быть другие методы. Но во-вторых, после преобразования Бокса-Кокса вы говорите, что ваши прогнозы ограничены, но ваш график этого не показывает.


0

В то время как большое внимание уделяется использованию регрессий, которые подчиняются границам 0/1, и это разумно (и важно!), Конкретный вопрос о том, почему ваш LPM не предсказывает результаты, превышающие 0,8, вызывает у меня немного другой вопрос ,

В любом случае в ваших остатках есть заметная закономерность, а именно, ваша линейная модель плохо вписывается в верхнюю часть вашего распределения. Это означает, что в правильной модели есть что-то нелинейное.

Решения, которые также учитывают границы ваших данных, равные 0/1: пробит, логит и бета-регрессия. Эта граница имеет решающее значение и должна быть решена, чтобы ваша работа была строгой, учитывая ваш относительно близкий к 1 дистрибутиву и, таким образом, большое количество ответов на эту тему.

Обычно, однако, проблема в том, что LPM превышает предел 0/1. Это не тот случай, здесь! Если вас не интересует оценка 0/1 и вы активно хотите найти решение, которое может быть снабжено (x'x) ^ - 1 (x'y), то подумайте, что, возможно, модель не является строго линейной. Подгонка модели в зависимости от x ^ 2, перекрестных произведений независимых переменных или журналов независимых переменных может помочь улучшить ваше соответствие и, возможно, улучшить объяснительную силу вашей модели, чтобы она оценивала значения, превышающие 0,8.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.