Большие наборы проверки дают более точные оценки производительности вне выборки. Но, как вы заметили, в какой-то момент эта оценка может быть настолько точной, насколько вам это необходимо, и вы можете сделать некоторые приблизительные прогнозы относительно размера проверочной выборки, который вам необходим для достижения этой точки.
Для простой правильной / неправильной точности классификации вы можете рассчитать стандартную ошибку оценки как (стандартное отклонение переменной Бернулли), гдеp- вероятность правильной классификации, аn- размер проверочного набора. Конечно, вы не знаете,р, но вы можете иметь некоторое представление о его диапазоне. Например, предположим, что вы ожидаете точность в пределах 60-80%, и вы хотите, чтобы ваши оценки имели стандартную ошибку меньше 0,1%:
√p ( 1 - p ) / n---------√пNп
Какой должен бытьразмерn(размер проверочного набора)? Дляp=0,6получаем:
n> 0,6 - 0,6 2
p ( 1 - p ) / n---------√< 0,001
Nр = 0,6
для
р=0,8мы получим:
п>0,8-0,82n > 0,6 - 0,620,0012= 240 , 000
р = 0,8
Такэто говорит намвы могли бы уйти с использованием менее чем5% от ваших 5 миллионов выборок данных для проверки. Этот процент уменьшается, если вы ожидаете более высокую производительность, или особенно если вы удовлетворены более низкой стандартной ошибкой вашей оценки производительности вне выборки (например, при
p=0,7и для se <1% вам нужно только 2100 проверочных выборок или менее двадцати процентов ваших данных).
n > 0,8 - 0,820,0012= 160 , 000
р = 0,7
Эти расчеты также демонстрируют точку зрения, высказанную Тимом в его ответе, о том, что точность ваших оценок зависит от абсолютного размера вашего проверочного набора (т.е. от ), а не от его размера относительно обучающего набора.N
(Также я мог бы добавить, что я предполагаю репрезентативную выборку здесь. Если ваши данные очень неоднородны, вам может понадобиться использовать большие наборы проверки только для того, чтобы убедиться, что данные проверки включают в себя все те же условия и т. Д., Что и данные об обучении и тестировании. )