Если вы подгоняете нелинейную функцию к набору точек (при условии, что для каждой абсциссы есть только одна ордината), результатом может быть:
- очень сложная функция с небольшими остатками
- очень простая функция с большими остатками
Перекрестная проверка обычно используется, чтобы найти «лучший» компромисс между этими двумя крайностями. Но что значит «лучший»? Это "скорее всего"? Как бы вы начали доказывать, что является наиболее вероятным решением?
Мой внутренний голос говорит мне, что CV находит какое-то минимальное энергетическое решение. Это заставляет меня думать об энтропии, которая, как я смутно знаю, встречается как в статистике, так и в физике.
Мне кажется, что «наилучшее» соответствие генерируется путем минимизации суммы функций сложности и ошибки, т.е.
minimising m where m = c(Complexity) + e(Error)
Есть ли в этом смысл? Какими будут функции с и е?
Пожалуйста, вы можете объяснить, используя не математический язык, потому что я не буду понимать много математики.