Вопросы с тегом «scikit-learn»

Библиотека машинного обучения для Python. Используйте этот тег для любого вопроса по теме, который (a) включает scikit-learn или как критическую часть вопроса, или как ожидаемый ответ, и (b) не только о том, как использовать scikit-learn.

3
Разница между statsmodel OLS и scikit линейной регрессии
У меня есть вопрос о двух разных методах из разных библиотек, которые, кажется, выполняют одну и ту же работу. Я пытаюсь сделать модель линейной регрессии. Вот код, который я использовал с помощью библиотеки statsmodel с OLS: X_train, X_test, y_train, y_test = cross_validation.train_test_split(x, y, test_size=0.3, random_state=1) x_train = sm.add_constant(X_train) model = …

2
Использование вложенной перекрестной проверки
На странице Scikit Learn по выбору модели упоминается использование вложенной перекрестной проверки: >>> clf = GridSearchCV(estimator=svc, param_grid=dict(gamma=gammas), ... n_jobs=-1) >>> cross_validation.cross_val_score(clf, X_digits, y_digits) Два цикла перекрестной проверки выполняются параллельно: один с помощью оценщика GridSearchCV для установки гаммы, а другой с помощью cross_val_score для измерения эффективности прогнозирования оценщика. Полученные оценки являются …

2
Является ли порог принятия решения гиперпараметром в логистической регрессии?
Прогнозируемые классы из (двоичной) логистической регрессии определяются с использованием порога вероятностей членства в классе, генерируемых моделью. Насколько я понимаю, обычно используется 0.5 по умолчанию. Но изменение порога изменит предсказанные классификации. Означает ли это, что порог является гиперпараметром? Если это так, то почему (например) невозможно легко выполнить поиск по сетке пороговых …

2
Использование BIC для оценки количества k в KMEANS
В настоящее время я пытаюсь вычислить BIC для моего игрушечного набора данных (ofc iris (:). Я хочу воспроизвести результаты, как показано здесь (Рис. 5). Этот документ также является моим источником для формул BIC. У меня есть 2 проблемы с этим: Обозначения: ninin_i я = количество элементов в кластереiii CiCiC_i я …

1
Как исправить несходимость в LogisticRegressionCV
Я использую scikit-learn для выполнения логистической регрессии с перекрестной проверкой на наборе данных (около 14 параметров с> 7000 нормализованных наблюдений). У меня также есть целевой классификатор, который имеет значение 1 или 0. У меня проблема в том, что независимо от используемого решателя я получаю предупреждения о сходимости ... model1 = …

5
Как выполнить вменение значений в очень большом количестве точек данных?
У меня очень большой набор данных и около 5% случайных значений отсутствуют. Эти переменные связаны друг с другом. В следующем примере набор данных R - просто игрушечный пример с фиктивными коррелированными данными. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

1
Разница между реализациями scikit-learn PCA и TruncatedSVD
Я понимаю связь между анализом главных компонентов и разложением по сингулярным значениям на алгебраическом / точном уровне. Мой вопрос о реализации scikit-learn . Документация гласит: « [TruncatedSVD] очень похож на PCA, но работает непосредственно с векторами выборки, а не с ковариационной матрицей », что будет отражать алгебраическое различие между обоими …
12 pca  scikit-learn  svd  scipy 

1
Интерпретация выходных данных Scikitвести
Я работаю с библиотекой Scikit-Learn в Python. В приведенном ниже коде я предсказываю вероятность, но я не знаю, как прочитать вывод. Данные тестирования from sklearn.ensemble import RandomForestClassifier as RF from sklearn import cross_validation X = np.array([[5,5,5,5],[10,10,10,10],[1,1,1,1],[6,6,6,6],[13,13,13,13],[2,2,2,2]]) y = np.array([0,1,1,0,1,2]) Разделить набор данных X_train, X_test, y_train, y_test = cross_validation.train_test_split(X, y, test_size=0.5, …

2
Можно ли оценить GLM в Python / scikit-learn, используя распределения Пуассона, Гаммы или Твиди как семейство для распределения ошибок?
Пытаюсь выучить немного Python и Sklearn, но для своей работы мне нужно запустить регрессии, которые используют распределения ошибок из семейств Пуассона, Гаммы и особенно семейства Твиди. Я ничего не вижу в документации о них, но они есть в нескольких частях дистрибутива R, поэтому мне было интересно, видел ли кто-нибудь где-нибудь …

2
В чем разница между
Я читал о метриках регрессии в питоне scikit учиться ручным и даже если каждый из них имеет свою собственную формулу, я не могу сказать , интуитивно , что разница между и дисперсией баллами и поэтому , когда использовать один или другой , чтобы оценить мои модели.р2р2R^2

1
Метод Нистроема для аппроксимации ядра
Я читал о методе Nyström для апроксимации ядра низкого ранга. Этот метод реализован в scikit-learn [1] как метод проецирования выборок данных в низкосортное приближение отображения характеристик ядра. Насколько мне известно, данный учебный набор и функция ядра, она генерирует низкокачественного приближение ядро матрицы , применяя SVD к и . n × …

1
Почему большой выбор K понижает мою оценку перекрестной проверки?
Играя с набором данных Boston Housing Dat и RandomForestRegressor(с параметрами по умолчанию) в scikit-learn, я заметил кое-что странное: средний балл перекрестной проверки уменьшился, когда я увеличил число сгибов выше 10. Моя стратегия перекрестной проверки была следующей: cv_met = ShuffleSplit(n_splits=k, test_size=1/k) scores = cross_val_score(est, X, y, cv=cv_met) ... где num_cvsбыл изменен. …

1
Разница между ElasticNet в Scikit-Learn Python и Glmnet в R
Кто-нибудь пытался проверить, дает ли соответствие модели Elastic Net ElasticNetв Scikit-Learn в Python и glmnetR в одном наборе данных одинаковые арифметические результаты? Я экспериментировал со многими комбинациями параметров (поскольку две функции различаются значениями по умолчанию, которые они передают аргументам), а также масштабировал данные, но, похоже, ничто не дает одинаковую модель …

2
Каковы различия между регрессией Риджа с использованием R glmnet и Python scikit-learn?
Я изучаю раздел LAB §6.6, посвященный регрессии Риджа / Лассо, в книге Джеймса Виттена «Hastie», Tibshirani (2013) «Введение в статистическое обучение с приложениями в R» . Более конкретно, я пытаюсь применить модель scikit-learn Ridgeк набору данных 'Hitters' из пакета R 'ISLR'. Я создал такой же набор функций, как показано в …

1
Для какого типа выбора можно использовать критерий хи-квадрат?
Здесь я спрашиваю о том, что обычно делают другие, чтобы использовать критерий хи-квадрат для выбора функции по результатам в контролируемом обучении. Если я правильно понимаю, проверяют ли они независимость между каждой функцией и результатом и сравнивают значения p между тестами для каждой функции? В http://en.wikipedia.org/wiki/Pearson%27s_chi-squared_test , Критерий хи-квадрат Пирсона - …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.