Пока ни один из ответов не является полностью правильным, поэтому я попытаюсь дать представление о R-Squared. Я дал более подробное объяснение этого в своем блоге здесь "Что такое R-Squared"
Сумма в квадрате Ошибка
Цель обычной регрессии по методу наименьших квадратов состоит в том, чтобы получить линию, которая минимизировала ошибку суммы в квадрате. Линия по умолчанию с минимальной квадратической ошибкой является горизонтальной линией через среднее значение. По сути, если вы не можете сделать лучше, вы можете просто предсказать среднее значение, и это даст вам минимальную квадратическую ошибку
R-Squared - это способ измерения, насколько лучше, чем средняя линия, которую вы сделали, на основе суммы квадратов ошибок. Уравнение для R-Squared является
Теперь SS Regression и SS Total являются суммами квадратов. Оба из них всегда положительны. Это означает, что мы берем 1 и вычитаем положительное значение. Таким образом, максимальное значение R-Squared имеет положительное значение 1, а минимальное - отрицательную бесконечность. Да, это правильно, диапазон R-квадратов находится между -infinity и 1, а не -1 и 1 и не 0 и 1
Что такое ошибка в квадрате суммы
Сумма квадрата ошибки - это ошибка в каждой точке, ее возведение в квадрат и сложение всех квадратов. Для общей ошибки он использует горизонтальную линию через среднее значение, потому что это дает наименьшую сумму квадратов ошибки, если у вас нет никакой другой информации, т.е. вы не можете выполнить регрессию.
Как уравнение именно это
Теперь с регрессом наша цель состоит в том, чтобы сделать лучше, чем среднее. Например, эта линия регрессии даст меньшую квадратическую ошибку, чем при использовании горизонтальной линии.
Уравнение для квадрата ошибки регрессии это
В идеале, у вас должна быть нулевая ошибка регрессии, т.е. ваша линия регрессии будет идеально соответствовать данным. В этом случае вы получите значение R-Squared 1
Отрицательный R в квадрате
Вся информация выше довольно стандартная. А как насчет отрицательного R-Squared?
Что ж, получается, что нет причины, по которой ваше уравнение регрессии должно давать меньшую квадратическую ошибку, чем среднее значение. Обычно считается, что если вы не можете сделать лучший прогноз, чем среднее значение, вы просто используете среднее значение, но ничто не заставляет это быть причиной. Например, вы можете предсказать медиану для всего.
На практике при обычной регрессии с наименьшим квадратом наиболее распространенным временем получения отрицательного значения R-квадрата является форсирование точки, через которую должна пройти линия регрессии. Обычно это делается установкой перехвата, но вы можете провести линию регрессии через любую точку.
Когда вы делаете это, линия регрессии проходит через эту точку и пытается получить ошибку минимальной суммы в квадрате, все еще проходя через эту точку.
По умолчанию в уравнениях регрессии в качестве точки, через которую проходит линия регрессии, используются среднее значение x и среднее значение y. Но если вы проведете его через точку, которая находится далеко от того места, где обычно находится линия регрессии, вы можете получить ошибку квадрата суммы, которая выше, чем при использовании горизонтальной линии
На изображении ниже обе линии регрессии были вынуждены иметь точку пересечения y, равную 0. Это вызвало отрицательный R-квадрат для данных, которые сильно смещены от начала координат.
Для верхнего набора точек, красных, линия регрессии является наилучшей из возможных линий регрессии, которая также проходит через начало координат. Просто случается, что эта линия регрессии хуже, чем при использовании горизонтальной линии, и, следовательно, дает отрицательный R-квадрат.
Неопределенный R-Squared
Существует один особый случай, о котором никто не упомянул, где вы можете получить неопределенный R-Squared. То есть, если ваши данные полностью горизонтальны, то ваша общая квадратичная ошибка равна нулю. В результате у вас будет ноль, деленный на ноль в уравнении R-квадрата, который не определен.