Я не могу бегать с большими собаками статистики, которые отвечали до меня, и, возможно, мое мышление наивно, но я смотрю на это так ...
Представьте, что вы находитесь в машине, и вы едете по дороге, поворачиваете колесо влево и вправо и неистово нажимаете педаль газа и тормоза. И все же машина движется плавно, не зависит от ваших действий. Вы сразу заподозрили бы, что вас не было в реальной машине, и, возможно, если бы мы присмотрелись, мы бы определили, что вы едете в Disney World. (Если бы вы были в реальной машине, вы были бы в смертельной опасности, но давайте не будем туда идти.)
С другой стороны, если вы ехали по дороге на автомобиле и слегка повернули колесо влево или вправо, это сразу же привело к движению автомобиля, нажатие на педаль тормоза привело к сильному замедлению, а нажатие на педаль газа отбросило вас обратно в сиденье. Вы можете подозревать, что находились в спортивной машине с высокими эксплуатационными характеристиками.
В общем, вы, вероятно, испытываете что-то среднее между этими двумя крайностями. Степень, в которой ваши входные данные (рулевое управление, тормоза, газ) напрямую влияют на движение автомобиля, дает вам представление о качестве автомобиля. То есть, чем больше дисперсия движения вашего автомобиля, связанная с вашими действиями, тем лучше автомобиль, и чем больше автомобиль движется независимо от вашего контроля, тем хуже автомобиль.
Аналогичным образом вы говорите о создании модели для некоторых данных (назовем эти данные ) на основе некоторых других наборов данных (назовем их ). Если не меняется, это как машина, которая не движется, и нет смысла обсуждать, работает ли автомобиль (модель) хорошо или нет, поэтому мы предположим, что меняется.х 1 , х 2 , . , , , Х я у уyx1,x2,...,xiyy
Так же, как и у автомобиля, модель хорошего качества будет иметь хорошее соотношение между результатами меняются, и входными данными меняются. В отличие от автомобиля, не обязательно приводит к изменению , но если модель будет полезной, нужно менять в тесной связи с . Другими словами, объясняют большую часть дисперсии в .x i x i y x i y x i yyxixi yxiyxiy
PS Я не смог придумать аналогию с Винни-Пухом, но я попытался.
PPS [EDIT:] Обратите внимание, что я решаю этот конкретный вопрос. Не смущайтесь, думая, что если вы учитываете 100% дисперсии, ваша модель будет работать замечательно. Вам также нужно подумать о переоснащении, когда ваша модель настолько гибкая, что она очень точно соответствует обучающим данным, включая ее случайные причуды и странности. Чтобы использовать аналогию, вам нужен автомобиль с хорошим рулевым управлением и тормозами, но вы хотите, чтобы он хорошо работал на дороге, а не только на тестовой трассе, которую вы используете.