Вопросы с тегом «model-selection»

Выбор модели - это проблема определения, какая модель из некоторого набора работает лучше всего. Популярные методы включают , критерии AIC и BIC, наборы тестов и перекрестную проверку. В некоторой степени выбор функции является подзадачей выбора модели. р2

6
Сравните R-квадрат из двух разных моделей Random Forest
Я использую пакет randomForest в R для разработки модели случайного леса, чтобы попытаться объяснить непрерывный результат в «широком» наборе данных с большим количеством предикторов, чем выборок. В частности, я подгоняю одну модель RF, позволяющую процедуре выбрать из набора ~ 75 переменных предиктора, которые я считаю важными. Я проверяю, насколько хорошо …

2
Существует ли статистика соответствия модели (например, AIC или BIC), которую можно использовать для абсолютных, а не просто относительных сравнений?
Я не очень знаком с этой литературой, поэтому, пожалуйста, прости меня, если это очевидный вопрос. Поскольку AIC и BIC зависят от максимизации вероятности, кажется, что они могут использоваться только для сравнительных сравнений между набором моделей, пытающихся соответствовать заданному набору данных. Насколько я понимаю, не имеет смысла вычислять AIC для модели …

3
Обобщенные линейные смешанные модели: выбор модели
Этот вопрос / тема возникла в дискуссии с коллегой, и я искал несколько мнений по этому поводу: Я моделирую некоторые данные, используя логистическую регрессию со случайными эффектами, точнее - логистическую регрессию со случайным перехватом. Для фиксированных эффектов у меня есть 9 переменных, которые представляют интерес и учитываются. Я хотел бы …

3
Выбор байесовской модели и вероятный интервал
У меня есть набор данных с тремя переменными, где все переменные являются количественными. Давайте назовем это , и . Я подгоняю регрессионную модель в байесовской перспективе через MCMC сх 1 х 2yyyx1x1x_1x2x2x_2rjags Я сделал предварительный анализ, и график рассеяния подсказывает, что следует использовать квадратичный термин. Тогда я установил две моделиy×x2y×x2y\times …

1
Какая модель глубокого обучения может классифицировать категории, которые не являются взаимоисключающими
Примеры: у меня есть предложение в должностной инструкции: «Старший инженер Java в Великобритании». Я хочу использовать модель глубокого обучения, чтобы предсказать ее как 2 категории: English и IT jobs. Если я использую традиционную классификационную модель, она может предсказать только 1 метку с softmaxфункцией на последнем слое. Таким образом, я могу …
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

2
Почему информационный критерий (не скорректированный
В моделях временных рядов, таких как ARMA-GARCH, для выбора подходящего лага или порядка модели используются разные информационные критерии, такие как AIC, BIC, SIC и т. Д. Мой вопрос очень прост, почему мы не используем скорректированный чтобы выбрать подходящую модель? Мы можем выбрать модель, которая приведет к более высокому значению скорректированной …

4
Интерпретация значения AIC
Типичные значения AIC, которые я видел для логистических моделей, исчисляются тысячами, по меньшей мере, сотнями. например, на http://www.r-bloggers.com/how-to-perform-a-logistic-regression-in-r/ AIC составляет 727,39 Хотя всегда говорят, что AIC следует использовать только для сравнения моделей, я хотел понять, что означает конкретное значение AIC. По формуле А яС= - 2 журнала( L ) + …

1
Выбор оригинальной (?) Модели с k-кратным CV
При использовании k-кратного CV для выбора между регрессионными моделями я обычно вычисляю ошибку CV отдельно для каждой модели вместе со стандартной ошибкой SE, и выбираю простейшую модель в пределах 1 SE модели с наименьшей ошибкой CV (1 стандартное правило ошибки, см., например, здесь ). Однако недавно мне сказали, что таким …

1
Когда правильное правило оценки является лучшей оценкой обобщения в условиях классификации?
Типичный подход к решению проблемы классификации состоит в том, чтобы идентифицировать класс моделей-кандидатов, а затем выполнить выбор модели с использованием некоторой процедуры, такой как перекрестная проверка. Обычно выбирается модель с наивысшей точностью или некоторая связанная функция, которая кодирует информацию о проблеме, например FβFβ\text{F}_\beta . Предполагая, что конечной целью является создание …

1
Эквивалентность AIC и p-значений при выборе модели
В комментарии к ответу на этот вопрос было указано, что использование AIC при выборе модели эквивалентно использованию значения p 0,154. Я попробовал это в R, где я использовал «обратный» алгоритм выбора подмножества, чтобы выбросить переменные из полной спецификации. Во-первых, путем последовательного выброса переменной с самым высоким значением p и остановки, …

2
Какое ядро ​​SVM использовать для решения проблемы двоичной классификации?
Я начинающий, когда дело доходит до поддержки векторных машин. Существуют ли рекомендации, в которых говорится, какое ядро ​​(например, линейное, полиномиальное) лучше всего подходит для конкретной задачи? В моем случае я должен классифицировать веб-страницы в зависимости от того, содержат ли они какую-то конкретную информацию или нет, то есть у меня есть …

2
Вычисление проблем, интерпретация regsubsets и общие вопросы о процедуре выбора модели
Я хочу выбрать модели, используя regsubsets(). У меня есть фрейм данных с именем olympiadaten (загруженные данные: http://www.sendspace.com/file/8e27d0 ). Я сначала присоединяю этот фрейм данных, а затем начинаю анализировать, мой код: attach(olympiadaten) library(leaps) a<-regsubsets(Gesamt ~ CommunistSocialist + CountrySize + GNI + Lifeexp + Schoolyears + ExpMilitary + Mortality + PopPoverty + …

4
Выбор модели и производительность модели в логистической регрессии
У меня есть вопрос о выборе модели и производительности модели в логистической регрессии. У меня есть три модели, основанные на трех разных гипотезах. Первые две модели (назовем их z и x) имеют только одну объясняющую переменную в каждой модели, а третья (назовем ее w) является более сложной. Я использую AIC …

4
Сокращение количества переменных в множественной регрессии
У меня есть большой набор данных, состоящий из значений нескольких сотен финансовых переменных, которые можно использовать в множественной регрессии для прогнозирования поведения индексного фонда во времени. Я хотел бы сократить число переменных до десяти или около того, сохраняя при этом как можно большую предсказательную силу. Добавлено: сокращенный набор переменных должен …

1
Учет дискретных или двоичных параметров в байесовском информационном критерии
BIC штрафует в зависимости от количества параметров. Что если некоторые из параметров являются своего рода переменными двоичного индикатора? Они считаются полными параметрами? Но я могу объединить двоичных параметров в одну дискретную переменную, которая принимает значения в . Они должны учитываться как параметров или как один параметр?{ 0 , 1 , …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.