Вопросы с тегом «model-selection»

Выбор модели - это проблема определения, какая модель из некоторого набора работает лучше всего. Популярные методы включают , критерии AIC и BIC, наборы тестов и перекрестную проверку. В некоторой степени выбор функции является подзадачей выбора модели. р2

1
Как построить окончательную модель и настроить порог вероятности после вложенной перекрестной проверки?
Во-первых, извинения за размещение вопроса, который уже подробно обсуждался здесь , здесь , здесь , здесь , здесьи для разогрева старой темы. Я знаю, что @DikranMarsupial подробно писал об этой теме в постах и ​​журнальных статьях, но я все еще в замешательстве, и, судя по количеству подобных постов, это все …

2
Правильно ли использовать матрицу корреляции для выбора предикторов регрессии?
Несколько дней назад мой психолог-исследователь рассказал мне о своем методе выбора переменных для модели линейной регрессии. Думаю, это нехорошо, но мне нужно попросить кого-нибудь еще убедиться. Метод таков: Посмотрите на матрицу корреляции между всеми переменными (включая зависимую переменную Y) и выберите те предикторы Xs, которые больше всего коррелируют с Y. …

3
ROC против точных кривых отзыва на несбалансированном наборе данных
Я только что закончил читать эту дискуссию. Они утверждают, что PR AUC лучше, чем ROC AUC по несбалансированному набору данных. Например, у нас есть 10 образцов в тестовом наборе данных. 9 образцов положительные и 1 отрицательный. У нас ужасная модель, которая предсказывает все положительное. Таким образом, у нас будет метрика: …

1
Почему информационный критерий Акаике больше не используется в машинном обучении?
Я просто наткнулся на «Информационный критерий Акайке» и заметил большое количество литературы по выбору моделей (кажется, существуют и такие вещи, как BIC). Почему современные методы машинного обучения не используют эти критерии выбора моделей BIC и AIC?

1
Является ли личная таблица лидеров Kaggle хорошим предиктором непревзойденной производительности победившей модели?
Хотя результаты частного тестового набора не могут быть использованы для дальнейшего уточнения модели, не является ли выбор модели из огромного числа моделей, выполняемых на основе результатов частного тестового набора? Не могли бы вы, в результате одного этого процесса, в конечном итоге перейти на частный тестовый набор? Согласно «Псевдоматематике и финансовому …

1
Проблема определения порядка ARIMA
Это длинный пост, поэтому я надеюсь, что вы можете терпеть меня, и, пожалуйста, поправьте меня, где я неправ. Моя цель - составить ежедневный прогноз на основе исторических данных за 3 или 4 недели. Данные представляют собой 15-минутные данные локальной нагрузки одной из трансформаторных линий. У меня проблемы с поиском модельного …

7
Какое определение «наилучший» используется в терминах «наилучшее соответствие» и перекрестная проверка?
Если вы подгоняете нелинейную функцию к набору точек (при условии, что для каждой абсциссы есть только одна ордината), результатом может быть: очень сложная функция с небольшими остатками очень простая функция с большими остатками Перекрестная проверка обычно используется, чтобы найти «лучший» компромисс между этими двумя крайностями. Но что значит «лучший»? Это …

5
Могу ли я игнорировать коэффициенты для незначительных уровней факторов в линейной модели?
После поиска разъяснений по поводу коэффициентов линейной модели здесь у меня возник вопрос о не значащем значении (высокое значение p) для коэффициентов уровней факторов. Пример: если моя линейная модель включает в себя фактор с 10 уровнями, и только 3 из этих уровней имеют значимые значения p, связанные с ними, при …

2
LASSO / LARS против общего к специфическому (GETS) методу
Мне было интересно, почему методы выбора моделей LASSO и LARS так популярны, даже если они в основном представляют собой просто варианты пошагового прямого выбора (и, следовательно, страдают от зависимости пути)? Точно так же, почему методы General to Specific (GETS) для выбора модели в основном игнорируются, даже если они работают лучше, …

4
Сравнение моделей со смешанным эффектом с одинаковым количеством степеней свободы
У меня есть эксперимент, который я постараюсь изложить здесь. Представьте, что я бросаю перед вами три белых камня и прошу вас высказать свое мнение об их положении. Я записываю различные свойства камней и ваш ответ. Я делаю это по ряду предметов. Я генерирую две модели. Во-первых, ближайший к вам камень …

3
Выбор оптимального К для КНН
Я выполнил 5-кратное резюме, чтобы выбрать оптимальный K для KNN. И кажется, что чем больше К, тем меньше ошибка ... Извините, у меня не было легенды, но разные цвета представляют разные испытания. Всего их 5, и кажется, что между ними мало различий. Кажется, что ошибка всегда уменьшается, когда K становится …

1
Как интерпретировать ковариационную матрицу из подбора кривой?
Я не слишком хорош в статистике, поэтому извиняюсь, если это упрощенный вопрос. Я подгоняю кривую к некоторым данным, и иногда мои данные лучше всего соответствуют отрицательной экспоненте в виде , а иногда подгонка ближе к a ∗ e ( - b ∗ x 2 ) + с . Однако иногда …

4
Оптимальный выбор штрафа для лассо
Существуют ли аналитические результаты или экспериментальные работы относительно оптимального выбора коэффициента штрафного члена . Под оптимальным я подразумеваю параметр, который максимизирует вероятность выбора наилучшей модели или минимизирует ожидаемые потери. Я спрашиваю, потому что часто нецелесообразно выбирать параметр путем перекрестной проверки или начальной загрузки, либо из-за большого количества случаев проблемы, либо …

1
Какой метод множественного сравнения использовать для модели lmer: lsmeans или glht?
Я анализирую набор данных, используя модель смешанных эффектов с одним фиксированным эффектом (условием) и двумя случайными эффектами (участник из-за дизайна объекта и пары). Модель была сгенерирована с lme4пакетом: exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp). Затем я выполнил тест отношения правдоподобия этой модели по сравнению с моделью без фиксированного эффекта (условия) и получил значительную разницу. В …

1
logloss vs gini / auc
Я обучил две модели (двоичные классификаторы с использованием h2o AutoML) и хочу выбрать одну для использования. У меня есть следующие результаты: model_id auc logloss logloss_train logloss_valid gini_train gini_valid DL_grid_1 0.542694 0.287469 0.092717 0.211956 0.872932 0.312975 DL_grid_2 0.543685 0.251431 0.082616 0.186196 0.900955 0.312662 aucи loglossстолбцы метрики кросс-валидации (кросс проверки использует только …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.