Вопросы с тегом «cross-validation»

Неоднократно удерживать подмножества данных во время подбора модели, чтобы количественно оценить производительность модели на удерживаемых подмножествах данных.

3
Кривая ROC для дискретных классификаторов, таких как SVM: почему мы до сих пор называем это «кривой»? Разве это не просто «точка»?
В обсуждении: как создать кривую roc для бинарной классификации , я думаю, что путаница заключалась в том, что «двоичный классификатор» (который является любым классификатором, разделяющим 2 класса) был для Янга так называемым «дискретным классификатором» (который производит дискретные выходы 0/1 (например, SVM), а не непрерывные выходы, такие как ANN или байесовские …

1
Как работает перекрестная проверка без участия? Как выбрать окончательную модель из
У меня есть некоторые данные, и я хочу построить модель (скажем, модель линейной регрессии) из этих данных. На следующем шаге я хочу применить к модели перекрестную проверку Leave-One-Out (LOOCV), чтобы увидеть, насколько хорошо она работает. Если я правильно понял LOOCV, я строю новую модель для каждого из моих образцов (набор …

2
10-кратная перекрестная проверка по сравнению с перекрестной проверкой с пропуском одного
Я делаю вложенную перекрестную проверку. Я читал, что перекрестная проверка без участия может быть предвзятой (не помню почему). Лучше ли использовать 10-кратную перекрестную проверку или перекрестную проверку по принципу «один-один-выход», кроме более продолжительного времени выполнения перекрестной проверки «один-один-выход»?

3
Перекрестная проверка или начальная загрузка для оценки эффективности классификации?
Какой метод выборки является наиболее подходящим для оценки производительности классификатора на конкретном наборе данных и сравнения его с другими классификаторами? Перекрестная проверка кажется стандартной практикой, но я читал, что такие методы, как .632 начальной загрузки, являются лучшим выбором. В качестве продолжения: влияет ли выбор метрики производительности на ответ (если я …

1
Кто изобрел k-кратную перекрестную проверку?
Я ищу ссылку на статью, в которой была введена k-кратная перекрестная проверка (а не просто академическая справка по предмету). Возможно, это слишком далеко в глубине веков, чтобы однозначно определить самую первую статью, поэтому любые ранние статьи, в которых использовалась идея, были бы интересны. Самое раннее, что я знаю, это Лахенбрух …

2
Почему лямбда «в пределах одной стандартной ошибки от минимума» является рекомендованным значением для лямбда в упругой чистой регрессии?
Я понимаю, какую роль играет лямбда в регрессии эластичной сети. И я могу понять, почему можно выбрать lambda.min, значение лямбды, которое минимизирует перекрестную проверку. Мой вопрос: где в статистической литературе рекомендуется использовать lambda.1se, то есть значение lambda, которое минимизирует ошибку CV плюс одну стандартную ошибку ? Кажется, я не могу …

1
Перекрестная проверка (CV) и обобщенная статистика перекрестной проверки (GCV)
Я обнаружил, возможно, противоречивые определения для статистики перекрестной проверки (CV) и для статистики обобщенной перекрестной проверки (GCV), связанной с линейной моделью (с нормальным гомоскедастическим вектором ошибок ).εY=Xβ+εY=Xβ+εY = X\boldsymbol\beta + \boldsymbol\varepsilonεε\boldsymbol\varepsilon С одной стороны, Голуб, Хит и Вахба определяют оценку GCV как (стр. 216)λ^λ^\hat{\lambda} минимизатор заданный где A \ left …

3
Какие распространенные модели прогнозирования можно рассматривать как особые случаи моделей ARIMA?
Этим утром я проснулся с удивлением (это могло быть связано с тем, что прошлой ночью я не выспался): поскольку перекрестная проверка, кажется, является краеугольным камнем правильного прогнозирования временных рядов, какие модели мне следует «обычно» "перекрестная проверка против? Я придумал несколько (простых), но вскоре понял, что это все, кроме особых случаев …

3
AIC против перекрестной проверки во временных рядах: небольшой пример
Я заинтересован в выборе модели в настройке временных рядов. Для конкретности предположим, что я хочу выбрать модель ARMA из пула моделей ARMA с различными порядками запаздывания. Конечная цель - прогнозирование . Выбор модели может быть сделан перекрестная проверка, использование информационных критериев (AIC, BIC), среди других методов. Роб Дж. Хиндман предоставляет …

4
Почему исследователи используют 10-кратную перекрестную проверку вместо тестирования на наборе проверки?
Я прочитал много исследовательских работ о классификации настроений и смежных темах. Большинство из них используют 10-кратную перекрестную проверку для обучения и тестирования классификаторов. Это означает, что не проводится отдельное тестирование / проверка. Почему это? Каковы преимущества / недостатки этого подхода, особенно для тех, кто проводит исследования?

4
Когда применимы результаты Шао по кросс-проверке с пропуском?
В своей статье « Выбор линейной модели с помощью перекрестной проверки» Джун Шао показывает, что для задачи выбора переменных в многомерной линейной регрессии метод перекрестной проверки «без выходных данных» (LOOCV) является «асимптотически несовместимым». Проще говоря, он имеет тенденцию выбирать модели со слишком большим количеством переменных. В симуляционном исследовании Шао показывает, …

3
Стабильность модели при решении большой проблемы , small
Вступление: У меня есть набор данных с классической «большой p, маленький n проблема». Количество доступных выборок n = 150, а количество возможных предикторов p = 400. Результат - непрерывная переменная. Я хочу найти самые «важные» дескрипторы, то есть те, которые являются лучшими кандидатами для объяснения результата и помощи в построении …

2
Как следует сравнивать и / или проверять модели смешанных эффектов?
Как (линейные) модели смешанных эффектов обычно сравниваются друг с другом? Я знаю, что могут использоваться тесты отношения правдоподобия, но это не работает, если одна модель не является «подмножеством» другой, верно? Всегда ли оценка моделей df проста? Количество фиксированных эффектов + количество оцененных компонентов дисперсии? Мы игнорируем оценки случайных эффектов? Как …

2
Лучший подход для выбора модели байесовской или перекрестной проверки?
При попытке выбора между различными моделями или количеством функций, например, для прогнозирования, я могу придумать два подхода. Разделите данные на обучающие и тестовые наборы. Еще лучше использовать начальную загрузку или перекрестную проверку в k-кратном порядке. Каждый раз тренируйтесь на тренировочном наборе и рассчитывайте погрешность на тестовом наборе. Ошибка проверки графика …

5
Как разделить набор данных для прогнозирования временных рядов?
У меня есть исторические данные о продажах из пекарни (ежедневно, более 3 лет). Теперь я хочу построить модель для прогнозирования будущих продаж (используя такие функции, как день недели, переменные погоды и т. Д.). Как я должен разделить набор данных для подбора и оценки моделей? Должен ли он быть хронологическим составом …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.