Статистика и большие данные cross-validation

3

Кривая ROC для дискретных классификаторов, таких как SVM: почему мы до сих пор называем это «кривой»? Разве это не просто «точка»?

В обсуждении: как создать кривую roc для бинарной классификации , я думаю, что путаница заключалась в том, что «двоичный классификатор» (который является любым классификатором, разделяющим 2 класса) был для Янга так называемым «дискретным классификатором» (который производит дискретные выходы 0/1 (например, SVM), а не непрерывные выходы, такие как ANN или байесовские …

25 cross-validation roc auc

1

Как работает перекрестная проверка без участия? Как выбрать окончательную модель из

У меня есть некоторые данные, и я хочу построить модель (скажем, модель линейной регрессии) из этих данных. На следующем шаге я хочу применить к модели перекрестную проверку Leave-One-Out (LOOCV), чтобы увидеть, насколько хорошо она работает. Если я правильно понял LOOCV, я строю новую модель для каждого из моих образцов (набор …

25 cross-validation

2

10-кратная перекрестная проверка по сравнению с перекрестной проверкой с пропуском одного

Я делаю вложенную перекрестную проверку. Я читал, что перекрестная проверка без участия может быть предвзятой (не помню почему). Лучше ли использовать 10-кратную перекрестную проверку или перекрестную проверку по принципу «один-один-выход», кроме более продолжительного времени выполнения перекрестной проверки «один-один-выход»?

25 machine-learning cross-validation

3

Перекрестная проверка или начальная загрузка для оценки эффективности классификации?

Какой метод выборки является наиболее подходящим для оценки производительности классификатора на конкретном наборе данных и сравнения его с другими классификаторами? Перекрестная проверка кажется стандартной практикой, но я читал, что такие методы, как .632 начальной загрузки, являются лучшим выбором. В качестве продолжения: влияет ли выбор метрики производительности на ответ (если я …

24 machine-learning classification predictive-models cross-validation bootstrap

1

Кто изобрел k-кратную перекрестную проверку?

Я ищу ссылку на статью, в которой была введена k-кратная перекрестная проверка (а не просто академическая справка по предмету). Возможно, это слишком далеко в глубине веков, чтобы однозначно определить самую первую статью, поэтому любые ранние статьи, в которых использовалась идея, были бы интересны. Самое раннее, что я знаю, это Лахенбрух …

24 cross-validation references

2

Почему лямбда «в пределах одной стандартной ошибки от минимума» является рекомендованным значением для лямбда в упругой чистой регрессии?

Я понимаю, какую роль играет лямбда в регрессии эластичной сети. И я могу понять, почему можно выбрать lambda.min, значение лямбды, которое минимизирует перекрестную проверку. Мой вопрос: где в статистической литературе рекомендуется использовать lambda.1se, то есть значение lambda, которое минимизирует ошибку CV плюс одну стандартную ошибку ? Кажется, я не могу …

24 regression cross-validation regularization glmnet elastic-net

1

Перекрестная проверка (CV) и обобщенная статистика перекрестной проверки (GCV)

Я обнаружил, возможно, противоречивые определения для статистики перекрестной проверки (CV) и для статистики обобщенной перекрестной проверки (GCV), связанной с линейной моделью (с нормальным гомоскедастическим вектором ошибок ).εY=Xβ+εY=Xβ+εY = X\boldsymbol\beta + \boldsymbol\varepsilonεε\boldsymbol\varepsilon С одной стороны, Голуб, Хит и Вахба определяют оценку GCV как (стр. 216)λ^λ^\hat{\lambda} минимизатор заданный где A \ left …

23 cross-validation

3

Какие распространенные модели прогнозирования можно рассматривать как особые случаи моделей ARIMA?

Этим утром я проснулся с удивлением (это могло быть связано с тем, что прошлой ночью я не выспался): поскольку перекрестная проверка, кажется, является краеугольным камнем правильного прогнозирования временных рядов, какие модели мне следует «обычно» "перекрестная проверка против? Я придумал несколько (простых), но вскоре понял, что это все, кроме особых случаев …

23 time-series cross-validation arima

3

AIC против перекрестной проверки во временных рядах: небольшой пример

Я заинтересован в выборе модели в настройке временных рядов. Для конкретности предположим, что я хочу выбрать модель ARMA из пула моделей ARMA с различными порядками запаздывания. Конечная цель - прогнозирование . Выбор модели может быть сделан перекрестная проверка, использование информационных критериев (AIC, BIC), среди других методов. Роб Дж. Хиндман предоставляет …

23 time-series forecasting cross-validation model-selection aic

4

Почему исследователи используют 10-кратную перекрестную проверку вместо тестирования на наборе проверки?

Я прочитал много исследовательских работ о классификации настроений и смежных темах. Большинство из них используют 10-кратную перекрестную проверку для обучения и тестирования классификаторов. Это означает, что не проводится отдельное тестирование / проверка. Почему это? Каковы преимущества / недостатки этого подхода, особенно для тех, кто проводит исследования?

23 classification cross-validation

4

Когда применимы результаты Шао по кросс-проверке с пропуском?

В своей статье « Выбор линейной модели с помощью перекрестной проверки» Джун Шао показывает, что для задачи выбора переменных в многомерной линейной регрессии метод перекрестной проверки «без выходных данных» (LOOCV) является «асимптотически несовместимым». Проще говоря, он имеет тенденцию выбирать модели со слишком большим количеством переменных. В симуляционном исследовании Шао показывает, …

23 classification model-selection cross-validation

3

Стабильность модели при решении большой проблемы , small

Вступление: У меня есть набор данных с классической «большой p, маленький n проблема». Количество доступных выборок n = 150, а количество возможных предикторов p = 400. Результат - непрерывная переменная. Я хочу найти самые «важные» дескрипторы, то есть те, которые являются лучшими кандидатами для объяснения результата и помощи в построении …

22 regression cross-validation model-selection feature-selection elastic-net

2

Как следует сравнивать и / или проверять модели смешанных эффектов?

Как (линейные) модели смешанных эффектов обычно сравниваются друг с другом? Я знаю, что могут использоваться тесты отношения правдоподобия, но это не работает, если одна модель не является «подмножеством» другой, верно? Всегда ли оценка моделей df проста? Количество фиксированных эффектов + количество оцененных компонентов дисперсии? Мы игнорируем оценки случайных эффектов? Как …

22 hypothesis-testing mixed-model cross-validation aic degrees-of-freedom

2

Лучший подход для выбора модели байесовской или перекрестной проверки?

При попытке выбора между различными моделями или количеством функций, например, для прогнозирования, я могу придумать два подхода. Разделите данные на обучающие и тестовые наборы. Еще лучше использовать начальную загрузку или перекрестную проверку в k-кратном порядке. Каждый раз тренируйтесь на тренировочном наборе и рассчитывайте погрешность на тестовом наборе. Ошибка проверки графика …

22 bayesian model-selection cross-validation feature-selection

5

Как разделить набор данных для прогнозирования временных рядов?

У меня есть исторические данные о продажах из пекарни (ежедневно, более 3 лет). Теперь я хочу построить модель для прогнозирования будущих продаж (используя такие функции, как день недели, переменные погоды и т. Д.). Как я должен разделить набор данных для подбора и оценки моделей? Должен ли он быть хронологическим составом …

22 cross-validation partitioning

Вопросы с тегом «cross-validation»