Вопросы с тегом «cross-validation»

Неоднократно удерживать подмножества данных во время подбора модели, чтобы количественно оценить производительность модели на удерживаемых подмножествах данных.

2
Keras: почему убыток уменьшается, а val_loss увеличивается?
Я настроил сетку для поиска группы параметров. Я пытаюсь найти лучшие параметры для нейронной сети Keras, которая выполняет бинарную классификацию. Выходное значение равно 1 или 0. Имеется около 200 функций. Когда я сделал поиск по сетке, я получил несколько моделей и их параметры. Лучшая модель имела следующие параметры: Epochs : …

1
Как выбрать ядро ​​для ядра PCA?
Какими способами можно выбрать, какое ядро ​​приведет к хорошему разделению данных при окончательном выводе данных ядром PCA (анализ основных компонентов), и как оптимизировать параметры ядра? Условия Лаймана, если это возможно, будут высоко оценены, и ссылки на статьи, которые объясняют такие методы, также были бы хорошими.

2
Как выполнить перекрестную проверку для PCA, чтобы определить количество основных компонентов?
Я пытаюсь написать свою собственную функцию для анализа главных компонентов, PCA (конечно, многое уже написано, но я просто заинтересован в том, чтобы реализовать что-то самостоятельно). Основная проблема, с которой я столкнулся, - это этап перекрестной проверки и вычисления прогнозируемой суммы квадратов (PRESS). Неважно, какую перекрестную проверку я использую, речь идет …

3
Разделение данных временного ряда на наборы Train / Test / Validation
Каков наилучший способ разбить данные временного ряда на наборы поезд / тест / проверка, где набор проверки будет использоваться для настройки гиперпараметра? У нас есть данные о ежедневных продажах за 3 года, и мы планируем использовать 2015-2016 гг. В качестве данных обучения, затем случайным образом выбрать 10 недель из данных …

2
Точное определение меры Deviance в пакете glmnet с перекрестной проверкой?
Для моего текущего исследования я использую метод Лассо через пакет glmnet в R для биномиальной зависимой переменной. В glmnet оптимальная лямбда определяется путем перекрестной проверки, и полученные модели можно сравнивать с различными показателями, например, ошибочной классификацией или отклонением. Мой вопрос: как именно определяется девиация в glmnet? Как рассчитывается? (В соответствующей …

2
Является ли коэффициент ошибок выпуклой функцией лямбда-параметра регуляризации?
При выборе параметра регуляризации лямбда в Ridge или Lasso рекомендуется использовать разные значения лямбды, измерить ошибку в наборе валидации и, наконец, выбрать то значение лямбды, которое возвращает наименьшую ошибку. Мне не понятно, если функция f (лямбда) = error является выпуклой. Может ли быть так? Т.е. эта кривая может иметь более …

2
Является ли разделение данных на тестовые и обучающие наборы чисто статистическими данными?
Я студент-физик, изучающий машинное обучение / науку о данных, поэтому я не хочу, чтобы этот вопрос вызвал какие-либо конфликты :) Однако большая часть любой программы по физике для студентов-физиков - это проведение лабораторных работ / экспериментов, что означает много данных. обработка и статистический анализ. Тем не менее, я замечаю резкую …

4
Что является более подходящим способом создания выносного набора: удалить некоторые предметы или удалить некоторые наблюдения от каждого предмета?
У меня есть набор данных с 26 функциями и 31000 строк. Это набор данных из 38 предметов. Это для биометрической системы. Поэтому я хочу иметь возможность определять предметы. Чтобы иметь набор для тестирования, я знаю, что должен удалить некоторые значения. Так что лучше делать и почему? (а) оставить 30 предметов …

1
Почему большой выбор K понижает мою оценку перекрестной проверки?
Играя с набором данных Boston Housing Dat и RandomForestRegressor(с параметрами по умолчанию) в scikit-learn, я заметил кое-что странное: средний балл перекрестной проверки уменьшился, когда я увеличил число сгибов выше 10. Моя стратегия перекрестной проверки была следующей: cv_met = ShuffleSplit(n_splits=k, test_size=1/k) scores = cross_val_score(est, X, y, cv=cv_met) ... где num_cvsбыл изменен. …

2
Перекрестная проверка после LASSO в данных комплексного опроса
Я пытаюсь сделать выбор модели для некоторых кандидатов-предикторов, используя LASSO с непрерывным результатом. Цель состоит в том, чтобы выбрать оптимальную модель с наилучшими показателями прогнозирования, что обычно может быть выполнено путем перекрестной проверки в K-кратном порядке после получения пути решения параметров настройки из LASSO. Проблема здесь заключается в том, что …

3
Доверительный интервал для перекрестной проверки точности классификации
Я работаю над проблемой классификации, которая вычисляет показатель сходства между двумя входными рентгеновскими изображениями. Если изображения принадлежат одному человеку (метка «справа»), будет рассчитана более высокая метрика; входные изображения двух разных людей (метка «неправильно») приведут к снижению показателя. Я использовал стратифицированную 10-кратную перекрестную проверку для вычисления вероятности ошибочной классификации. Мой текущий …

1
Усреднение точности и отзыв при использовании перекрестной проверки
Я выполнил классификацию с использованием нескольких классификаторов для данных, помеченных для двух классов, и использовал пятикратную перекрестную проверку. Для каждого сгиба я вычислял tp, tn, fp и fn. Затем я рассчитал точность, точность, отзыв и F-показатель для каждого теста. Мой вопрос заключается в том, что, когда я хочу усреднить результаты, …

1
Как вы можете определить, является ли гауссовский процесс более подходящим?
Я тренирую гауссовский процесс с ядром ARD с большим количеством параметров, максимизируя предельное правдоподобие данных вместо перекрестной проверки. Я подозреваю, что это чрезмерно. Как я могу проверить это подозрение в байесовском контексте?

1
Байесовская, MDL или ML интерпретация перекрестной проверки?
Есть ли известная байесовская, ML или MDL интерпретация перекрестной проверки? Могу ли я интерпретировать перекрестную проверку как выполнение правильного обновления специально созданного ранее?

1
R / mgcv: Почему тензорные продукты te () и ti () производят разные поверхности?
mgcvПакет Rимеет две функции для установки взаимодействия Тензор продукта: te()и ti(). Я понимаю основное разделение труда между ними (подгонка нелинейного взаимодействия против разложения этого взаимодействия на основные эффекты и взаимодействие). Чего я не понимаю, так это почему te(x1, x2)и ti(x1) + ti(x2) + ti(x1, x2)может дать (немного) разные результаты. MWE …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.