Вопросы с тегом «predictive-models»

Прогнозирующие модели - это статистические модели, основной целью которых является оптимальное прогнозирование других наблюдений за системой, в отличие от моделей, целью которых является проверка конкретной гипотезы или механическое объяснение явления. Как таковые, прогнозирующие модели уделяют меньше внимания интерпретируемости и больше внимания производительности.

2
Это современная методология регрессии?
Я давно слежу за соревнованиями в Kaggle и осознаю, что многие выигрышные стратегии предполагают использование хотя бы одного из «больших троек»: мешки, бустинг и стекирование. Для регрессий вместо того, чтобы концентрироваться на построении одной наилучшей из возможных моделей регрессии, кажется, что создание моделей множественной регрессии, таких как (обобщенная) линейная регрессия, …

1
Относительная важность переменной для повышения
Я ищу объяснение того, как относительная важность переменной вычисляется в деревьях с градиентным усилением, которое не является слишком общим / упрощенным, например: Измерения основаны на количестве раз, которое переменная была выбрана для расщепления, взвешенной по квадрату улучшения модели в результате каждого расщепления и усредненном по всем деревьям . [ Элит …

6
Должна ли скупость действительно оставаться золотым стандартом?
Просто мысль: Экономные модели всегда были стандартным выбором при выборе модели, но насколько этот подход устарел? Мне любопытно, насколько наша склонность к скупости является пережитком времени абаки и правил скольжения (или, что более серьезно, нетрадиционных компьютеров). Сегодняшние вычислительные мощности позволяют нам создавать все более сложные модели с еще большими возможностями …

3
В чем причина проблемы дисбаланса классов?
В последнее время я много размышлял о «проблеме дисбаланса классов» в машинном / статистическом обучении и все глубже погружаюсь в ощущение, что я просто не понимаю, что происходит. Сначала позвольте мне определить (или попытаться) определить мои термины: Проблема дисбаланса классов в машинном / статистическом обучении заключается в том, что некоторые …

3
следует ли изменять масштаб индикатора / двоичных / фиктивных предикторов для LASSO
Для LASSO (и других процедур выбора модели) важно изменить масштаб предикторов. Общая рекомендация я следую просто использовать 0, 1 среднее стандартное отклонение нормализации для непрерывных переменных. Но что тут делать с чайниками? Например, некоторые прикладные примеры из той же (отличной) летней школы, которую я связал с масштабированием непрерывных переменных, должны …

2
Почему p-значения вводят в заблуждение после пошагового выбора?
Давайте рассмотрим, например, модель линейной регрессии. Я слышал, что в процессе интеллектуального анализа данных после выполнения пошагового выбора на основе критерия AIC вводить в заблуждение взгляды на p-значения для проверки нулевой гипотезы о том, что каждый истинный коэффициент регрессии равен нулю. Я слышал, что следует рассматривать все переменные, оставшиеся в …

1
Могут ли степени свободы быть нецелым числом?
Когда я использую GAM, он дает мне остаточный DF, (последняя строка в коде). Что это значит? Выходя за рамки примера GAM, в общем, может ли число степеней свободы быть нецелым числом?26,626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

9
Когда корреляция может быть полезной без причинно-следственной связи?
Любимая поговорка многих статистиков гласит: «Корреляция не подразумевает причинно-следственную связь». Это, конечно, правда, но одна вещь, которая, похоже, здесь подразумевается, это то, что корреляция имеет мало или вообще не имеет значения. Это правда? Разве бесполезно знать, что две переменные коррелируют? Я не могу себе представить, что это так. Я не …

4
Прогнозирование с использованием как непрерывных, так и категориальных функций
Некоторые методы прогнозирующего моделирования больше предназначены для обработки непрерывных предикторов, а другие - для обработки категориальных или дискретных переменных. Конечно, существуют методы преобразования одного типа в другой (дискретизация, фиктивные переменные и т. Д.). Однако существуют ли какие-либо методы прогнозного моделирования, которые предназначены для одновременной обработки обоих типов ввода без простой …

1
Есть ли алгоритм, сочетающий классификацию и регрессию?
Мне интересно, если какой-либо алгоритм может сделать классификацию и регрессию одновременно. Например, я бы хотел, чтобы алгоритм изучал классификатор, и в то же время внутри каждой метки он также изучал непрерывную цель. Таким образом, для каждого примера обучения он имеет категориальную метку и непрерывное значение. Я мог бы сначала подготовить …

4
Какую проблему решают передискретизация, недостаточная выборка и SMOTE?
В недавнем, хорошо полученном вопросе Тим спрашивает, когда несбалансированные данные действительно являются проблемой в машинном обучении ? Предпосылка вопроса заключается в том, что существует много литературы по машинному обучению, в которой обсуждается баланс классов и проблема несбалансированных классов . Идея состоит в том, что наборы данных с дисбалансом между положительным …

2
Полезны ли смешанные модели в качестве прогностических моделей?
Я немного озадачен преимуществами смешанных моделей в отношении прогнозного моделирования. Поскольку прогнозирующие модели обычно предназначены для прогнозирования значений ранее неизвестных наблюдений, для меня кажется очевидным, что единственная возможность, с которой смешанная модель может быть полезной, заключается в ее способности предоставлять прогнозы на уровне популяции (то есть без добавления каких-либо случайных …

3
Перекрестная проверка или начальная загрузка для оценки эффективности классификации?
Какой метод выборки является наиболее подходящим для оценки производительности классификатора на конкретном наборе данных и сравнения его с другими классификаторами? Перекрестная проверка кажется стандартной практикой, но я читал, что такие методы, как .632 начальной загрузки, являются лучшим выбором. В качестве продолжения: влияет ли выбор метрики производительности на ответ (если я …

3
Как я могу интерпретировать матрицу путаницы Склеарн
Я использую матрицу путаницы, чтобы проверить производительность моего классификатора. Я использую Scikit-Learn, я немного запутался. Как я могу интерпретировать результат от from sklearn.metrics import confusion_matrix >>> y_true = [2, 0, 2, 2, 0, 1] >>> y_pred = [0, 0, 2, 2, 0, 2] >>> confusion_matrix(y_true, y_pred) array([[2, 0, 0], [0, …

2
Средняя абсолютная процентная ошибка (MAPE) в Scikit-learn [закрыто]
Закрыто. Этот вопрос не по теме . В настоящее время не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме перекрестной проверки. Закрыто 2 года назад . Как мы можем рассчитать среднюю абсолютную процентную ошибку (MAPE) наших прогнозов, используя Python и scikit-learn? Из документов у нас есть …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.