Критическое различие , хотите ли вы:
- [Наиболее распространенный случай]: Постройте оценку эффективности по новым предметам (взятым из той же совокупности, что и ваши данные).
- Составьте оценку эффективности по новым наблюдениям из тех же предметов, что и в вашей выборке.
Гораздо более распространенный случай - это номер дела (1). Например, насколько хорошо вы предсказываете сердечные приступы для человека, который входит в отделение неотложной помощи? И если вы в случае (1), вы почти наверняка должны сделать (а) перекрестную проверку по предметам, а не (б) перекрестную проверку по записям. Проведение валидации по записям в случае (1) может привести к необоснованно высоким, поддельным оценкам эффективности по новым предметам.
Я не совсем понимаю, что вы пытаетесь сделать (и, возможно, это самообучение, поэтому вопрос не совсем реалистичен). Я не знаю, в каком случае вы находитесь. Если вы находитесь в гораздо менее распространенном случае (2), проверка с точки зрения записи может быть в порядке.
Общая тема в статистике - тщательно продумать, что является независимым и что взаимосвязано. Вообще говоря, независимое наблюдение имеет тенденцию быть другим предметом. Если вы хотите предсказать результаты по новым предметам, вы должны проверить предметы, на которых вы не тренировались!
Почему предметная перекрестная проверка, а не запись?
В типичных условиях повторные наблюдения одного и того же человека коррелируют друг с другом даже после обусловливания особенностей. Следовательно, с помощью перекрестной проверки на основе записей ваш тестовый набор не зависит от вашего тренировочного набора! В крайнем случае идеальной корреляции у вас будут одни и те же наблюдения в тренировочном наборе и тестовом наборе! Вы будете тренироваться на тестовом наборе! Эффективность, измеренная в перекрестной проверке, не будет предсказывать эффективность по новым предметам.
Например, эта недавняя статья называет перекрестную проверку по записям «Машинное обучение вуду».
Что делать с таким небольшим количеством предметов, хотя ...
Возможно, некоторые комментаторы, более опытные в перекрестной проверке, чем я, могли бы принять участие, но для меня это выглядит как возможный кандидат для (иначе пропустить одну перекрестную проверку)?k=n
Чтобы максимизировать данные для обучения, вы можете оставить один предмет для перекрестной проверки. Каждую итерацию тестируйте на разных предметах и тренируйтесь на всех остальных.
Если все предметы очень разные, у вас может быть близко к и вы можете захотеть включить в тренировочный набор как можно больше независимых предметов.n=38