Это действительно зависит от количества данных, которые вы имеете, от конкретной стоимости методов и от того, насколько точно вы хотите, чтобы ваш результат был.
Некоторые примеры:
Если у вас мало данных, вы, вероятно, захотите использовать перекрестную проверку (k-fold, left-one-out и т. Д.). Ваша модель, скорее всего, не займет много ресурсов для обучения и тестирования в любом случае. Это хорошие способы получить максимальную отдачу от ваших данных
У вас много данных: вы, вероятно, захотите пройти достаточно большой набор тестов, гарантируя, что маловероятно, что некоторые странные выборки сильно изменят ваши результаты. Сколько данных вы должны взять? Это полностью зависит от ваших данных и модели. Например, при распознавании речи, если вы взяли бы слишком много данных (скажем, 3000 предложений), ваши эксперименты заняли бы дни, так как в реальном времени обычно используется коэффициент 7-10. Если вы берете слишком мало, это слишком сильно зависит от выбранных вами динамиков (которые не разрешены в тренировочном наборе).
Помните также, что во многих случаях полезно иметь набор валидации / разработки!