Вопросы с тегом «python»

Используйте для данных науки вопросы, связанные с языком программирования Python. Не предназначен для общих вопросов кодирования (-> stackoverflow).

1
Какая модель Keras лучше всего подходит для мультиклассовой классификации?
Я работаю на исследования, где необходимо классифицировать один из WINNER три события = ( win, draw, lose) WINNER LEAGUE HOME AWAY MATCH_HOME MATCH_DRAW MATCH_AWAY MATCH_U2_50 MATCH_O2_50 3 13 550 571 1.86 3.34 4.23 1.66 2.11 3 7 322 334 7.55 4.1 1.4 2.17 1.61 Моя текущая модель: def build_model(input_dim, output_classes): …

1
Почему xgboost намного быстрее, чем sklearn GradientBoostingClassifier?
Я пытаюсь обучить модели повышения градиента более чем на 50 тыс. Примеров с 100 числовыми функциями. XGBClassifierобрабатывает 500 деревьев в течение 43 секунд на моей машине, в то время как GradientBoostingClassifierобрабатывает только 10 деревьев (!) за 1 минуту и ​​2 секунды :( Я не стал пытаться вырастить 500 деревьев, так …
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

3
Гипертюнинг параметров XGBoost
XGBoost проделал большую работу, когда речь идет о работе как с категориальными, так и с непрерывно зависимыми переменными. Но как выбрать оптимизированные параметры для проблемы XGBoost? Вот как я применил параметры для недавней проблемы Kaggle: param <- list( objective = "reg:linear", booster = "gbtree", eta = 0.02, # 0.06, #0.01, …
27 r  python  xgboost 

3
Как заставить веса быть неотрицательными в линейной регрессии
Я использую стандартную линейную регрессию, используя scikit-learn в python. Тем не менее, я хотел бы, чтобы веса были положительными для каждой функции (не отрицательной), есть ли способ, которым я могу это сделать? Я искал в документации, но не мог найти способ сделать это. Я понимаю, что я не могу найти …

7
Как клонировать рабочую среду Python на другой машине?
Я разработал модель машинного обучения с Python (Anaconda + Flask) на моей рабочей станции, и все идет хорошо. Позже я попытался отправить эту программу на другую машину, где, конечно, я пытался настроить ту же среду, но программа не запускалась. Я скопировал программу на другие машины, где она также работает без …
26 python  anaconda 

1
PyTorch против Tensorflow Fold
Как PyTorch, так и Tensorflow Fold являются средами глубокого обучения, предназначенными для работы в ситуациях, когда входные данные имеют неодинаковую длину или измерения (то есть ситуации, когда динамические графики полезны или необходимы). Я хотел бы знать, как они сравниваются, в смысле парадигм, на которые они полагаются (например, динамическое пакетирование), и …

2
Слияние двух разных моделей в Керасе
Я пытаюсь объединить две модели Keras в одну модель и не могу этого сделать. Например, на прилагаемом рисунке я хотел бы получить средний слой измерения 8 и использовать его в качестве входных данных для слоя (снова размера 8) в модели а затем объединить и модель и модель как один модель.А …

6
Методы машинного обучения для оценки возраста пользователей на сайтах Facebook, которые им нравятся
У меня есть база данных из приложения Facebook, и я пытаюсь использовать машинное обучение для оценки возраста пользователей на основе того, какие сайты Facebook им нравятся. Есть три важных характеристики моей базы данных: распределение по возрасту в моем обучающем наборе (в сумме 12 тыс. пользователей) перекошено в сторону более молодых …

4
Существует ли простой способ параллельного запуска pandas.DataFrame.isin?
У меня есть программа моделирования и скоринга, которая активно использует DataFrame.isinфункцию панд, просматривая списки «похожих» на Facebook записей отдельных пользователей на каждой из нескольких тысяч конкретных страниц. Это самая трудоемкая часть программы, в большей степени, чем части моделирования или оценки, просто потому, что она работает только на одном ядре, а …

4
Word2Vec для распознавания именованных объектов
Я собираюсь использовать реализацию word2vec от Google для создания системы распознавания именованных сущностей. Я слышал, что рекурсивные нейронные сети с обратным распространением через структуру хорошо подходят для задач распознавания именованных сущностей, но я не смог найти достойную реализацию или подходящее руководство для этого типа модели. Поскольку я работаю с нетипичным …

5
Образ VM для проектов по науке о данных
Поскольку существует множество инструментов, доступных для задач по науке о данных, и неудобно устанавливать все и создавать идеальную систему. Существует ли образ Linux / Mac OS с установленными и доступными для немедленного использования людьми Python, R и другими открытыми инструментами для анализа данных? Идеально подойдет Ubuntu или легковесная ОС с …
24 python  r  tools 

4
Scikit-learn: получение SGDClassifier для прогнозирования, а также логистическая регрессия
Способ обучения Логистической регрессии - использование стохастического градиентного спуска, к которому Scikit-Learn предлагает интерфейс. То , что я хотел бы сделать , это принять scikit-Learn - х SGDClassifier и он забьет такой же , как логистическая регрессия здесь . Тем не менее, мне не хватает некоторых улучшений машинного обучения, так …

3
Лучшие практики для хранения моделей машинного обучения Python
Каковы лучшие практики для сохранения, хранения и обмена моделями машинного обучения? В Python мы обычно храним двоичное представление модели, используя pickle или joblib. Модели, в моем случае, могут быть размером ~ 100Mo. Кроме того, joblib может сохранять одну модель в нескольких файлах, если вы не укажете compress=1( /programming/33497314/sklearn-dumping-model-using-joblib-dumps-multiple-files-which-one-is-the- кор ). …

4
Нужно ли стандартизировать ваши данные перед кластеризацией?
Нужно ли стандартизировать ваши данные перед кластером? В примере scikit learnо DBSCAN, здесь они делают это в строке: X = StandardScaler().fit_transform(X) Но я не понимаю, зачем это нужно. В конце концов, кластеризация не предполагает какого-либо конкретного распределения данных - это неконтролируемый метод обучения, поэтому его целью является изучение данных. Зачем …

5
Расчет расхождения KL в Python
Я довольно новичок в этом и не могу сказать, что у меня есть полное понимание теоретических концепций этого. Я пытаюсь вычислить расхождение KL между несколькими списками точек в Python. Я использую http://scikit-learn.org/stable/modules/generated/sklearn.metrics.mutual_info_score.html, чтобы попытаться это сделать. Проблема, с которой я сталкиваюсь, состоит в том, что возвращаемое значение одинаково для любых …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.