Вопросы с тегом «cross-validation»

Неоднократно удерживать подмножества данных во время подбора модели, чтобы количественно оценить производительность модели на удерживаемых подмножествах данных.

1
Вопрос о вычитании среднего значения в поезде / действительном / тестовом наборе
Я делаю предварительную обработку данных и собираюсь создать Convonets на моих данных после. Мой вопрос: скажем, у меня есть общие наборы данных со 100 изображениями, я вычислял среднее значение для каждого из 100 изображений, а затем вычитал его из каждого из изображений, затем делил его на набор обучающих и проверочных …

1
Справедливо ли задавать начальное число в случайной лесной регрессии для получения максимальной точности?
У меня есть случайная регрессия леса, построенная с использованием skl, и я отмечаю, что я получаю разные результаты, основываясь на установке случайного начального числа на разные значения. Если я использую LOOCV, чтобы определить, какое семя работает лучше всего, это правильный метод?

1
Когда не использовать перекрестную проверку?
Когда я читаю сайт, большинство ответов показывают, что перекрестная проверка должна выполняться в алгоритмах машинного обучения. Однако, когда я читал книгу «Понимание машинного обучения», я увидел, что есть упражнение, в котором иногда лучше не использовать перекрестную проверку. Я действительно смущен. Когда алгоритм обучения на всех данных лучше, чем перекрестная проверка? …

1
Случайная лесная регрессия для прогнозирования временных рядов
Я пытаюсь использовать радиочастотную регрессию для прогнозирования производительности бумажной фабрики. У меня есть поминутные данные для входных данных (скорость и количество поступающей древесной массы и т. Д.), А также для производительности машины (произведенная бумага, мощность, потребляемая машиной), и я собираюсь сделать прогноз на 10 минут впереди на переменных производительности. У …

1
Как сделать перекрестную проверку с помощью cv.glmnet (регрессия LASSO в R)?
Мне интересно, как правильно подойти к обучению и тестированию модели LASSO с использованием glmnet в R? В частности, мне интересно, как это сделать, если отсутствие внешнего набора тестовых данных требует использования перекрестной проверки (или другого аналогичного подхода) для тестирования моей модели LASSO. Позвольте мне разбить мой сценарий: У меня есть …

3
Почему оценка CV тестовой ошибки недооценивает фактическую тестовую ошибку?
Насколько я понимаю, k-кратная оценка перекрестной проверки ошибки теста обычно недооценивает фактическую ошибку теста. Я запутался, почему это так. Я понимаю, почему ошибка обучения обычно меньше, чем ошибка теста - потому что вы тренируете модель на тех же данных, на которых вы оцениваете ошибку! Но это не относится к перекрестной …

1
Предотвращение сбоя выборки по важности по Парето (PSIS-LOO)
Недавно я начал использовать перекрестную проверку сглаживания важности по Парето (PSIS-LOO), описанную в следующих статьях: Vehtari, A. & Gelman, A. (2015). Парето сгладил важность выборки. Препринт arXiv ( ссылка ). Вехтари А., Гельман А. и Габри Дж. (2016). Практическая оценка байесовской модели с использованием кросс-проверки без участия и WAIC. Препринт …

1
Какие методы существуют для настройки гиперпараметров ядра графов SVM?
У меня есть некоторые данные, которые существуют на графе . Вершины принадлежат одному из двух классов y i ∈ { - 1 , 1 } , и я заинтересован в обучении SVM различать эти два класса. Одним подходящее ядро для этого является в диффузии ядро , К = ехру ( …

1
Требуется ли перекрестная проверка для моделирования со случайными лесами?
Насколько я видел, мнения об этом, как правило, расходятся. Лучшая практика, безусловно, диктует использование перекрестной проверки (особенно если сравнивать RF с другими алгоритмами в одном наборе данных). С другой стороны, первоначальный источник утверждает, что факт ошибки OOB, рассчитанный во время обучения модели, является достаточным показателем эффективности тестового набора. Даже Тревор …

2
Как выбрать размеры набора для обучения, перекрестной проверки и тестирования для данных небольшого размера?
Предположим, у меня небольшой размер выборки, например, N = 100, и два класса. Как выбрать размеры обучения, перекрестной проверки и тестового набора для машинного обучения? Я бы интуитивно выбрал Размер тренировочного набора 50 Размер набора для перекрестной проверки 25, и Размер теста как 25. Но, вероятно, это имеет более или …

1
Является ли удерживающая проверка лучшей аппроксимацией «получения новых данных», чем k-кратное резюме?
Я переосмыслил ответ, который дал на вопрос пару недель назад Удерживающая перекрестная проверка дает один набор тестов, который можно многократно использовать для демонстрации. Похоже, мы все согласны с тем, что это во многих отношениях является отрицательной чертой, поскольку один протяженный набор может оказаться непредставительным из-за случайности. Более того, вы можете …

2
Превосходство LASSO над прямым выбором / обратным устранением с точки зрения ошибки прогнозирования перекрестной проверки модели
Я получил три уменьшенные модели из оригинальной полной модели, используя выбор вперед устранение в обратном направлении Техника наказания L1 (LASSO) Для моделей, полученных с использованием прямого выбора / обратного исключения, я получил перекрестную валидацию оценки ошибки прогнозирования, используя CVlmпакет, DAAGдоступный в R. Для модели, выбранной через LASSO, я использовал cv.glm. …

3
Должен ли выбор функций выполняться только для данных обучения (или всех данных)?
Должен ли выбор функций выполняться только для данных обучения (или всех данных)? Я прошел через некоторые обсуждения и документы, такие как Guyon (2003) и Singhi and Liu (2006) , но все еще не был уверен в правильном ответе. Моя экспериментальная установка выглядит следующим образом: Набор данных: 50 здоровых контрольных пациентов …

1
Сравнение распределений производительности обобщения
Скажем, у меня есть два метода обучения для задачи классификации , и , и что я оцениваю их эффективность обобщения с помощью чего-то вроде повторной перекрестной проверки или начальной загрузки. Из этого процесса я получаю распределение оценок и для каждого метода по всем этим повторениям (например, распределение значений ROC AUC …

1
Как мне включить инновационный выброс при наблюдении 48 в мою модель ARIMA?
Я работаю над набором данных. После использования некоторых методов идентификации моделей я разработал модель ARIMA (0,2,1). Я использовал detectIOфункцию в пакете TSAв R, чтобы обнаружить инновационный выброс (IO) на 48-м наблюдении за моим исходным набором данных. Как включить этот выброс в мою модель, чтобы я мог использовать его для целей …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.