Каретка - повторная перекрестная проверка в K-кратном сравнении с вложенной перекрестной проверкой в K-кратном порядке, повторенная n раз

Пакет caret представляет собой великолепную библиотеку R для построения нескольких моделей машинного обучения и имеет несколько функций для построения и оценки моделей. Для настройки параметров и обучения модели пакет карет предлагает «repeatcv» в качестве одного из методов.

Хорошей практикой является то, что настройка параметров может выполняться с использованием вложенной перекрестной проверки K-кратности, которая работает следующим образом:

Разделите тренировочный набор на подмножества 'K'
В каждой итерации принимайте подмножества «K минус 1» для обучения модели и оставляйте 1 подмножество (набор удержаний) для тестирования модели.
Далее разделите обучающий набор «K минус 1» на подмножества «K» и итеративно используйте новое подмножество «K минус 1» и «набор проверки» для настройки параметров (поиск по сетке). Наилучший параметр, определенный на этом шаге, используется для проверки удержания, установленного на шаге 2.

С другой стороны, я предполагаю, что повторная перекрестная проверка в K-кратном выражении может повторять шаги 1 и 2 многократно, сколько раз мы выбираем поиск дисперсии модели.

Однако, пройдя алгоритм в руководстве по каретке, похоже, что метод repeatcv может выполнять также вложенную перекрестную проверку в K-кратном порядке, в дополнение к повторной перекрестной проверке.

Мои вопросы:

Правильно ли мое понимание метода каретного элемента «repeatcv»?
Если нет, то не могли бы вы привести пример использования вложенной перекрестной проверки по K-кратному методу с использованием метода repeatcv с использованием пакета caret?

Редактировать:

Различные стратегии перекрестной проверки объясняются и сравниваются в этой методологической статье.

Крстажич Д., Бутурович Л.Дж., Лихи Д.Е. и Томас С .: Перекрестные ошибки при выборе и оценке регрессионных и классификационных моделей .Журнал Хеминформатика 2014 6 (1): 10. DOI: 10,1186 / 1758-2946-6-10

Меня интересуют «Алгоритм 2: повторная многоуровневая перекрестная проверка с вложением» и «Алгоритм 3: повторная перекрестная проверка с использованием поиска по сетке для выбора переменных и настройки параметров» с использованием пакета Caret.

cross-validation caret

— Mani
источник

Нет ничего плохого в представленном (вложенном) алгоритме, и на самом деле он, вероятно, будет работать хорошо с приличной устойчивостью к проблеме отклонения смещения на разных наборах данных. Однако вы никогда не говорили, что читатель должен считать, что используемые вами функции являются наиболее «оптимальными», поэтому, если это неизвестно, существуют некоторые проблемы с выбором функций, которые необходимо сначала решить.

ФУНКЦИЯ / ВЫБОР ПАРАМЕТРА

$wrapper$ $filter$ который использует другой метод, который далек от классификатора / модели, в качестве попытки минимизировать смещение выбора свойства (параметра). Посмотрите обёртку против фильтрации и смещения выбора во время выбора объекта (GJ McLachlan).

$\mathcal{D}_1$ $\mathcal{D}_2$ $n=50$ $\pi=0.1n, 0.2n, 0,3n, 0.4n, 0.5n$ (то есть, увеличение размеров выборки, используемой во время обучения) в сочетании с различным количеством используемых кратностей CV, например, 2, 5, 10 и т. д.

ОПТИМИЗАЦИЯ / МИНИМИЗАЦИЯ

Вы, кажется, действительно решаете проблему оптимизации или минимизации для приближения функции, например, $y=f(x_1, x_2, \ldots, x_j)$ где, например, используется регрессия или прогнозная модель с параметрами и $y$ постоянно масштабируется. Учитывая это, и учитывая необходимость минимизировать смещение в ваших прогнозах (смещение выбора, отклонение смещения, утечка информации из тестируемых объектов в учебные объекты и т. Д.), Вы можете изучить использование CV во время использования методов разведки роя, таких как Оптимизация роя частиц (PSO), оптимизация муравьиных колоний и т. д. PSO (см. Kennedy & Eberhart, 1995) добавляет параметры для обмена социальной и культурной информацией между частицами при их прохождении через пространство параметров во время обучения. Как только вы познакомитесь с методами разведки роя, вы увидите, что вы можете преодолеть множество ошибок в определении параметров. Наконец, я не знаю, существует ли подход для случайного приближения (RF, см. Breiman, Journ. Of Machine Learning) для приближения функций, но если есть,

— JoleT
источник

Каретка - повторная перекрестная проверка в K-кратном сравнении с вложенной перекрестной проверкой в ​​K-кратном порядке, повторенная n раз

Каретка - повторная перекрестная проверка в K-кратном сравнении с вложенной перекрестной проверкой в K-кратном порядке, повторенная n раз