Вопросы с тегом «scikit-learn»

Библиотека машинного обучения для Python. Используйте этот тег для любого вопроса по теме, который (a) включает scikit-learn или как критическую часть вопроса, или как ожидаемый ответ, и (b) не только о том, как использовать scikit-learn.

3
XGBoost и Python Sklearn повышают градиент деревьев
Я пытаюсь понять, как работает XGBoost. Я уже понимаю, как деревья с градиентным ускорением работают на Python sklearn. Что мне не ясно, так это то, работает ли XGBoost таким же образом, но быстрее, или если между ним и реализацией python есть фундаментальные различия. Когда я читаю эту статью http://learningsys.org/papers/LearningSys_2015_paper_32.pdf Мне …

2
Метки многопрофильной классификации по скикиту
Я пытаюсь создать классификатор с несколькими метками, чтобы назначать темы для существующих документов с помощью scikit. Я обрабатываю свои документы, пропускаю их через TfidfVectorizerярлыки MultiLabelBinarizerи создаю в OneVsRestClassifierкачестве SGDClassifierоценщика. Однако при тестировании моего классификатора я получаю баллы только до .29, что, как я прочитал, довольно мало для подобных проблем. Я …

2
Случайный лес переоснащается?
Я экспериментирую со случайными лесами с помощью scikit-learn, и я получаю отличные результаты моего тренировочного набора, но относительно плохие результаты на моем тестовом наборе ... Вот проблема (по мотивам покера), которую я пытаюсь решить: с учетом карманных карт игрока А, карманных карт игрока Б и флопа (3 карты), у какого …

3
Как вычислить стандартные ошибки коэффициентов логистической регрессии
Я использую Python Scikit-Learn для обучения и проверки логистической регрессии. scikit-learn возвращает коэффициенты регрессии независимых переменных, но не предоставляет стандартных ошибок коэффициентов. Мне нужны эти стандартные ошибки для вычисления статистики Вальда для каждого коэффициента и, в свою очередь, для сравнения этих коэффициентов друг с другом. Я нашел одно описание того, …

3
Как систематически удалять коллинеарные переменные в Python? [закрыто]
Закрыто. Этот вопрос не по теме . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме перекрестной проверки. Закрыто 2 года назад . До сих пор я удалял коллинеарные переменные как часть процесса подготовки данных, просматривая корреляционные таблицы и удаляя переменные, которые …

3
Почему бы не использовать «нормальные уравнения», чтобы найти простые коэффициенты наименьших квадратов?
Я видел этот список здесь и не мог поверить, что было так много способов решить наименьших квадратов. «Нормальные уравнения» на Википедии , казалось, довольно прямым α^β^=y¯−β^x¯,=∑ni=1(xi−x¯)(yi−y¯)∑ni=1(xi−x¯)2α^=y¯−β^x¯,β^=∑i=1n(xi−x¯)(yi−y¯)∑i=1n(xi−x¯)2 {\displaystyle {\begin{aligned}{\hat {\alpha }}&={\bar {y}}-{\hat {\beta }}\,{\bar {x}},\\{\hat {\beta }}&={\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})(y_{i}-{\bar {y}})}{\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}\end{aligned}}} Так почему бы просто не использовать их? Я …

3
Как получить гиперпараметры во вложенной перекрестной проверке?
Я прочитал следующие посты о вложенной перекрестной проверке и до сих пор не уверен на 100%, что мне делать с выбором модели с вложенной перекрестной проверкой: Вложенная перекрестная проверка для выбора модели Выбор модели и перекрестная проверка: правильный путь Чтобы объяснить мою путаницу, позвольте мне попробовать пошагово пройти выбор модели …

3
Коллинеарные переменные в обучении LDA Multiclass
Я тренирую многоклассный классификатор LDA с 8 классами данных. Во время обучения я получаю предупреждение: « Переменные коллинеарны » Я получаю точность обучения более 90% . Я использую библиотеку scikits-learn в Python, обучаю и проверяю данные мультикласса . Я также получаю приличную точность тестирования (около 85% -95% ). Я не …

6
Самая быстрая реализация SVM
Больше общего вопроса. Я использую rbf SVM для прогнозного моделирования. Я думаю, что моя текущая программа определенно нуждается в ускорении. Я использую Scikit Learn с грубым, чтобы точный поиск сетки + перекрестная проверка. Каждый запуск SVM занимает около минуты, но со всеми итерациями я все еще нахожу его слишком медленным. …

7
Случайный лес переоснащается
Я пытаюсь использовать случайную лесную регрессию в scikits-learn. Проблема в том, что я получаю очень высокую ошибку теста: train MSE, 4.64, test MSE: 252.25. Вот как выглядят мои данные: (синий: реальные данные, зеленый: прогноз): Я использую 90% для обучения и 10% для тестирования. Это код, который я использую после попытки …

3
Логистическая регрессия: Scikit Learn против glmnet
Я пытаюсь продублировать результаты из sklearnбиблиотеки логистической регрессии, используя glmnetпакет в R. Из sklearnрегрессионной логистической документации , она пытается свести к минимуму функцию стоимости при l2 казни minw,c12wTw+C∑i=1Nlog(exp(−yi(XTiw+c))+1)minw,c12wTw+C∑i=1Nlog⁡(exp⁡(−yi(XiTw+c))+1)\min_{w,c} \frac12 w^Tw + C\sum_{i=1}^N \log(\exp(-y_i(X_i^Tw+c)) + 1) Из виньеток из glmnetего реализация минимизирует несколько иной стоимость функции минβ, β0- [ 1NΣя = …

3
Методы решения проблемы пропущенных данных в машинном обучении
Практически в любой базе данных, в которой мы хотим делать прогнозы с использованием алгоритмов машинного обучения, найдутся пропущенные значения для некоторых характеристик. Существует несколько подходов к решению этой проблемы, чтобы исключить строки с пропущенными значениями, пока они не заполнятся средними значениями признаков. Я хотел бы использовать для несколько более надежного …

2
Разница между выбором признаков на основе «F-регрессии» и на основе значений
Использует ли сравнение элементов F-regressionто же самое, что и сопоставление элементов с меткой по отдельности и соблюдение значения ?р2R2R^2 Я часто видел, как мои коллеги использовали F regressionдля выбора функций в своем конвейере машинного обучения из sklearn: sklearn.feature_selection.SelectKBest(score_func=sklearn.feature_selection.f_regression...)` Некоторые, пожалуйста, скажите мне - почему это дает те же результаты, что …

2
Почему функция начальной загрузки scikit-learn пересчитывает набор тестов?
При использовании начальной загрузки для оценки модели я всегда думал, что образцы из пакета были непосредственно использованы в качестве тестового набора. Однако, похоже, что это не относится к устаревшему подходу scikit-learnBootstrap , который, похоже, строит тестовый набор из чертежа с заменой из подмножества данных из пакета. Что за статистическое обоснование …

2
Scikit правильный способ калибровки классификаторов с CalibratedClassifierCV
Scikit имеет CalibratedClassifierCV , который позволяет нам калибровать наши модели по определенной паре X, Y. В нем также четко указано, чтоdata for fitting the classifier and for calibrating it must be disjoint. Если они должны быть непересекающимися, законно ли обучать классификатор следующим? model = CalibratedClassifierCV(my_classifier) model.fit(X_train, y_train) Я боюсь, что, …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.