Вы будете удивлены, узнав, что 80/20 - это довольно распространенное соотношение, часто называемое принципом Парето . Обычно это безопасная ставка, если вы используете это соотношение.
Однако, в зависимости от используемой вами методики обучения / валидации, соотношение может измениться. Например: если вы используете 10-кратную перекрестную проверку, то в итоге вы получите набор проверки в 10% для каждого раза.
Было проведено некоторое исследование того, каково правильное соотношение между обучающим набором и проверочным набором :
Доля шаблонов, зарезервированных для набора проверки, должна быть обратно пропорциональна квадратному корню из числа свободных настраиваемых параметров.
В своем заключении они указывают формулу:
Отношение проверки (v) к обучающему набору (t), отношение размеров v / t, масштабируется как ln (N / h-max), где N - количество семейств распознавателей, а h-max - наибольшая сложность этих семейств.
Что они подразумевают под сложностью:
Каждое семейство распознавателей характеризуется своей сложностью, которая может быть или не быть связана с измерением VC , длиной описания, количеством настраиваемых параметров или другими показателями сложности.
Принимая первое практическое правило (т.е. набор проверки должен быть обратно пропорционален квадратному корню из числа свободных настраиваемых параметров), вы можете сделать вывод, что если у вас есть 32 настраиваемых параметра, то квадратный корень из 32 равен ~ 5,65, дробь должна быть 1 / 5,65 или 0,177 (об / т). Примерно 17,7% должны быть зарезервированы для проверки и 82,3% для обучения.