Мой вопрос: должен ли я делать резюме даже для относительно большого набора данных?
У меня относительно большой набор данных, и я буду применять алгоритм машинного обучения для набора данных.
Так как мой компьютер не быстрый, CV (и поиск по сетке) иногда занимает слишком много времени. В частности, SVM никогда не заканчивается из-за большого количества параметров настройки. Таким образом, если я делаю резюме, то мне нужно выбрать относительно небольшие данные.
С другой стороны, набор проверки должен быть также большим, поэтому я думаю, что было бы неплохо использовать набор проверки, который имеет тот же (или больший) размер, что и обучающий набор. (А именно вместо CV я использую большой набор проверки для настройки параметров.)
Так что теперь у меня есть как минимум два варианта.
- сделать резюме на небольшой набор данных.
- используйте относительно большой обучающий набор и проверочный набор без резюме.
- другая идея.
Какая самая лучшая идея? Теоретические или практические мнения приветствуются.