Первая часть этого в основном правильна - но это 64% вариаций объясняется моделью. В простой линейной регрессии: Y ~ X, если составляет 0,64, это означает, что 64% отклонения Y определяется линейной зависимостью между Y и X. Возможно иметь сильную связь с очень низким R 2 , если связь сильно нелинейная.р2р2
Что касается ваших двух пронумерованных вопросов, ни один из них не является правильным. Действительно, возможно, что ни одна из точек не может лежать точно на линии регрессии. Это не то, что измеряется. Скорее, это вопрос того, насколько близка средняя точка к линии. Если все или почти все точки близки (даже если ни одна не находится точно на линии), тогда будет высоким. Если большинство точек далеко от линии, R 2 будет низким. Если большинство точек близко, а несколько далеко, то регрессия неверна (проблема выбросов). Другие вещи могут пойти не так, как надо.р2р2
Кроме того, я оставил понятие «далеко» довольно расплывчатым. Это будет зависеть от того, насколько распространены X. Уточнение этих понятий является частью того, что вы изучаете в курсе регрессии; Я не буду вдаваться в это здесь.