Вопросы с тегом «cross-validation»

Неоднократно удерживать подмножества данных во время подбора модели, чтобы количественно оценить производительность модели на удерживаемых подмножествах данных.

3
Понимание стратифицированной перекрестной проверки
В чем разница между стратифицированной перекрестной проверкой и перекрестной проверкой ? Википедия говорит: При перекрестной проверке по многослойной k-кратности сгибы выбираются таким образом, чтобы среднее значение отклика было примерно одинаковым во всех сгибах. В случае дихотомической классификации это означает, что каждая складка содержит примерно одинаковые пропорции двух типов меток классов. …

10
Удерживающая проверка против перекрестной проверки
Мне кажется, что проверка не нужна. То есть разделение исходного набора данных на две части (обучение и тестирование) и использование результатов тестирования в качестве обобщающей меры несколько бесполезны. K-кратная перекрестная проверка, кажется, дает лучшие приближения к обобщению (поскольку она обучает и проверяет каждую точку). Итак, почему мы должны использовать стандартную …

5
О важности предположения IID в статистическом обучении
В статистическом обучении, неявно или явно, всегда предполагается, что обучающий набор состоит из наборов ввода / ответа , которые независимо взяты из одного и того же совместного распределения сD ={ X , y }D={X,y}\mathcal{D} = \{ \bf {X}, \bf{y} \}NNNP ( X , y )( Xя, уя)(Xi,yi)({\bf{X}}_i,y_i) P(X,y)P(X,y)\mathbb{P}({\bf{X}},y) p(X,y)=p(y|X)p(X)p(X,y)=p(y|X)p(X) p({\bf{X}},y) …

6
Является ли регрессия гребня бесполезной в больших размерах (
Рассмотрим старую добрую регрессионную проблему с pпp предикторами и размером выборки . Обычная мудрость заключается в том, что оценщик OLS будет более подходящим и, как правило, будет превосходить оценщик регрессии гребня:Стандартно используется перекрестная проверка для нахождения оптимального параметра регуляризации . Здесь я использую 10-кратное резюме. Уточнение уточнения: когда , под …

1
Как применить стандартизацию / нормализацию к обучению и тестам, если целью является прогнозирование?
Преобразовываю ли я все свои данные или сгибы (если применяется CV) одновременно? например (allData - mean(allData)) / sd(allData) Преобразовать ли наборы поездов и наборы тестов отдельно? например (trainData - mean(trainData)) / sd(trainData) (testData - mean(testData)) / sd(testData) Или я преобразую поездный набор и использую вычисления на тестовом наборе? например (trainData …

2
Оптимальное количество сгибов в перекрестной проверке с
Помимо соображений вычислительной мощности, есть ли основания полагать, что увеличение количества сгибов при перекрестной проверке приводит к лучшему выбору / проверке модели (т. Е. Чем больше сгибов, тем лучше)? Если доводить аргумент до крайности, обязательно ли перекрестная проверка по принципу « один-за-один» обязательно приведет к лучшим моделям, чем перекрестная проверка …

4
Сборник методов перекрестной проверки
Мне интересно, знает ли кто-нибудь сборник методов перекрестной проверки с обсуждением различий между ними и руководством о том, когда использовать каждый из них. В Википедии есть список наиболее распространенных техник, но мне любопытно, есть ли другие техники и есть ли таксономии для них. Например, я просто наткнулся на библиотеку, которая …

3
Эмпирическое обоснование одного стандартного правила ошибки при использовании перекрестной проверки
Существуют ли какие-либо эмпирические исследования, оправдывающие использование единого стандартного правила ошибки в пользу скупости? Очевидно, что это зависит от процесса генерации данных, но все, что анализирует большой массив наборов данных, было бы очень интересно прочитать. «Одно стандартное правило ошибки» применяется при выборе моделей путем перекрестной проверки (или, в более общем …

3
Дисперсия кратных оценок перекрестной проверки как : какова роль «устойчивости»?
TL, DR: кажется, что, вопреки часто повторяемым советам, перекрестная проверка «один-один-один» (LOO-CV), то естькратное CV, где(количество сгибов) равно(число обучающих наблюдений) - дает оценки ошибки обобщения, которые являются наименьшей переменной для любого, а не самой переменной, предполагая определенноеусловие устойчивости либо для модели / алгоритма, либо для набора данных, либо для обоих …

7
Можно ли использовать перекрестную проверку для причинного вывода?
Во всех контекстах я знаком с перекрестной проверкой, она используется исключительно с целью повышения точности прогнозирования. Можно ли расширить логику перекрестной проверки при оценке непредвзятых отношений между переменными? В то время как эта статья Ричарда Берк демонстрирует использование выборки с задержкой для выбора параметров в «окончательной» регрессионной модели (и демонстрирует, …

5
Перекрестный анализ временных рядов
Я использовал пакет caret в R для построения прогностических моделей для классификации и регрессии. Caret предоставляет унифицированный интерфейс для настройки гиперпараметров модели путем перекрестной проверки или привязки загрузки. Например, если вы строите простую модель «ближайших соседей» для классификации, сколько соседей вы должны использовать? 2? 10? 100? Caret помогает вам ответить …

1
Когда вложенная перекрестная проверка действительно необходима и может иметь практическое значение?
При использовании перекрестной проверки для выбора модели (такой как, например, настройка гиперпараметра) и для оценки производительности лучшей модели следует использовать вложенную перекрестную проверку . Внешний цикл предназначен для оценки производительности модели, а внутренний цикл - для выбора наилучшей модели; модель выбирается на каждом внешнем обучающем наборе (с использованием внутренней петли …

2
Как мне узнать, какой метод перекрестной проверки является лучшим?
Я пытаюсь выяснить, какой метод перекрестной проверки лучше всего подходит для моей ситуации. Следующие данные являются лишь примером для проработки проблемы (в R), но мои реальные Xданные ( xmat) связаны друг с другом и в разной степени связаны с yпеременной ( ymat). Я предоставил код R, но мой вопрос не …

3
PCA и разделение поезда / теста
У меня есть набор данных, для которого у меня есть несколько наборов двоичных меток. Для каждого набора меток я обучаю классификатор, оценивая его путем перекрестной проверки. Я хочу уменьшить размерность, используя анализ основных компонентов (PCA). Мой вопрос: Можно ли сделать PCA один раз для всего набора данных, а затем использовать …

2
Выбор модели и перекрестная проверка: правильный путь
В CrossValidated существует множество тем на тему выбора модели и перекрестной проверки. Вот несколько из них: Внутренняя и внешняя перекрестная проверка и выбор модели Главный ответ @ DikranMarsupial на выбор функций и перекрестную проверку Однако ответы на эти темы являются довольно общими и в основном освещают проблемы с конкретными подходами …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.