Вопросы с тегом «scraping»

1
Почему xgboost намного быстрее, чем sklearn GradientBoostingClassifier?
Я пытаюсь обучить модели повышения градиента более чем на 50 тыс. Примеров с 100 числовыми функциями. XGBClassifierобрабатывает 500 деревьев в течение 43 секунд на моей машине, в то время как GradientBoostingClassifierобрабатывает только 10 деревьев (!) за 1 минуту и ​​2 секунды :( Я не стал пытаться вырастить 500 деревьев, так …
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

2
Этическое и экономичное масштабирование данных
Немногие вещи в жизни доставляют мне удовольствие, например, извлечение структурированных и неструктурированных данных из Интернета и использование их в моих моделях. Например, Data Science Toolkit (или RDSTKдля программистов на R) позволяет мне получать много хороших данных, основанных на местоположении, с использованием IP-адресов или адресов, а пакет tm.webmining.pluginfor R tmупрощает очистку …

7
LinkedIn веб-соскоб
Недавно я обнаружил новый пакет R для подключения к LinkedIn API. К сожалению, API LinkedIn кажется довольно ограниченным для начала; Например, вы можете получить только базовые данные о компаниях, а это отдельно от данных о физических лицах. Я хотел бы получить данные обо всех сотрудниках данной компании, что вы можете …

4
Как почистить IMDB веб-страницу?
Я пытаюсь самостоятельно изучить работу с использованием Python как часть усилий по изучению анализа данных. Я пытаюсь очистить веб-страницу imdb, URL которой следующий: http://www.imdb.com/search/title?sort=num_votes,desc&start=1&title_type=feature&year=1950,2012 Я использую модуль BeautifulSoup. Ниже приведен код, который я использую: r = requests.get(url) # where url is the above url bs = BeautifulSoup(r.text) for movie in …
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.