Каретка - повторная перекрестная проверка в K-кратном сравнении с вложенной перекрестной проверкой в ​​K-кратном порядке, повторенная n раз


16

Пакет caret представляет собой великолепную библиотеку R для построения нескольких моделей машинного обучения и имеет несколько функций для построения и оценки моделей. Для настройки параметров и обучения модели пакет карет предлагает «repeatcv» в качестве одного из методов.

Хорошей практикой является то, что настройка параметров может выполняться с использованием вложенной перекрестной проверки K-кратности, которая работает следующим образом:

  1. Разделите тренировочный набор на подмножества 'K'
  2. В каждой итерации принимайте подмножества «K минус 1» для обучения модели и оставляйте 1 подмножество (набор удержаний) для тестирования модели.
  3. Далее разделите обучающий набор «K минус 1» на подмножества «K» и итеративно используйте новое подмножество «K минус 1» и «набор проверки» для настройки параметров (поиск по сетке). Наилучший параметр, определенный на этом шаге, используется для проверки удержания, установленного на шаге 2.

С другой стороны, я предполагаю, что повторная перекрестная проверка в K-кратном выражении может повторять шаги 1 и 2 многократно, сколько раз мы выбираем поиск дисперсии модели.

Однако, пройдя алгоритм в руководстве по каретке, похоже, что метод repeatcv может выполнять также вложенную перекрестную проверку в K-кратном порядке, в дополнение к повторной перекрестной проверке.

алгоритм каретного поезда https://topepo.github.io/caret/training.html

Мои вопросы:

  1. Правильно ли мое понимание метода каретного элемента «repeatcv»?
  2. Если нет, то не могли бы вы привести пример использования вложенной перекрестной проверки по K-кратному методу с использованием метода repeatcv с использованием пакета caret?

Редактировать:

Различные стратегии перекрестной проверки объясняются и сравниваются в этой методологической статье.

Крстажич Д., Бутурович Л.Дж., Лихи Д.Е. и Томас С .: Перекрестные ошибки при выборе и оценке регрессионных и классификационных моделей .Журнал Хеминформатика 2014 6 (1): 10. DOI: 10,1186 / 1758-2946-6-10

Меня интересуют «Алгоритм 2: повторная многоуровневая перекрестная проверка с вложением» и «Алгоритм 3: повторная перекрестная проверка с использованием поиска по сетке для выбора переменных и настройки параметров» с использованием пакета Caret.

Ответы:


2

Нет ничего плохого в представленном (вложенном) алгоритме, и на самом деле он, вероятно, будет работать хорошо с приличной устойчивостью к проблеме отклонения смещения на разных наборах данных. Однако вы никогда не говорили, что читатель должен считать, что используемые вами функции являются наиболее «оптимальными», поэтому, если это неизвестно, существуют некоторые проблемы с выбором функций, которые необходимо сначала решить.

ФУНКЦИЯ / ВЫБОР ПАРАМЕТРА

весрaппереяLTеркоторый использует другой метод, который далек от классификатора / модели, в качестве попытки минимизировать смещение выбора свойства (параметра). Посмотрите обёртку против фильтрации и смещения выбора во время выбора объекта (GJ McLachlan).

D1D2Nзнак равно50πзнак равно0,1N,0.2N,0,3N,0,4N,0,5N(то есть, увеличение размеров выборки, используемой во время обучения) в сочетании с различным количеством используемых кратностей CV, например, 2, 5, 10 и т. д.

ОПТИМИЗАЦИЯ / МИНИМИЗАЦИЯ

Вы, кажется, действительно решаете проблему оптимизации или минимизации для приближения функции, например, Yзнак равное(Икс1,Икс2,...,ИксJ)где, например, используется регрессия или прогнозная модель с параметрами и Yпостоянно масштабируется. Учитывая это, и учитывая необходимость минимизировать смещение в ваших прогнозах (смещение выбора, отклонение смещения, утечка информации из тестируемых объектов в учебные объекты и т. Д.), Вы можете изучить использование CV во время использования методов разведки роя, таких как Оптимизация роя частиц (PSO), оптимизация муравьиных колоний и т. д. PSO (см. Kennedy & Eberhart, 1995) добавляет параметры для обмена социальной и культурной информацией между частицами при их прохождении через пространство параметров во время обучения. Как только вы познакомитесь с методами разведки роя, вы увидите, что вы можете преодолеть множество ошибок в определении параметров. Наконец, я не знаю, существует ли подход для случайного приближения (RF, см. Breiman, Journ. Of Machine Learning) для приближения функций, но если есть,

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.