Вопросы с тегом «r»

R - это свободный язык программирования с открытым исходным кодом и программная среда для статистических вычислений, биоинформатики и графики.

15
Python vs R для машинного обучения
Я только начинаю разрабатывать приложение машинного обучения для академических целей. В настоящее время я использую R и тренируюсь в этом. Тем не менее, во многих местах я видел людей, использующих Python . Что люди используют в научных кругах и промышленности, и какова рекомендация?

1
Как получить корреляцию между двумя категориальными переменными и категориальными переменными и непрерывными переменными?
Я строю регрессионную модель, и мне нужно вычислить ниже, чтобы проверить корреляции Корреляция между 2 многоуровневыми категориальными переменными Корреляция между многоуровневой категориальной переменной и непрерывной переменной VIF (коэффициент инфляции дисперсии) для многоуровневых категориальных переменных Я считаю, что неправильно использовать коэффициент корреляции Пирсона для вышеупомянутых сценариев, потому что Пирсон работает только …

9
Подходит ли язык R для больших данных
R имеет много библиотек, которые предназначены для анализа данных (например, JAGS, BUGS, ARULES и т. Д.), И упоминается в популярных учебниках, таких как: J. Krusche, Doing Bayesian Data Analysis; Б.Ланц, "Машинное обучение с R". Я видел рекомендацию в 5 ТБ для набора данных, который следует рассматривать как большие данные. Мой …
48 bigdata  r 

9
Альтернативы IDE для R-программирования (RStudio, IntelliJ IDEA, Eclipse, Visual Studio)
Я использую RStudio для программирования R. Я помню твердые IDE из других технологических стеков, таких как Visual Studio или Eclipse. У меня есть два вопроса: Какие другие IDE, кроме RStudio, используются (пожалуйста, подумайте над предоставлением краткого описания для них). Есть ли у кого-нибудь из них заметные преимущества перед RStudio? В …
46 r  tools  rstudio  programming 

7
Организованные процессы для очистки данных
Из моего ограниченного увлечения наукой данных с использованием R я понял, что очистка плохих данных является очень важной частью подготовки данных для анализа. Существуют ли передовые практики или процессы для очистки данных перед их обработкой? Если да, существуют ли какие-либо автоматизированные или полуавтоматические инструменты, которые реализуют некоторые из этих передовых …
34 r  data-cleaning 

1
Почему xgboost намного быстрее, чем sklearn GradientBoostingClassifier?
Я пытаюсь обучить модели повышения градиента более чем на 50 тыс. Примеров с 100 числовыми функциями. XGBClassifierобрабатывает 500 деревьев в течение 43 секунд на моей машине, в то время как GradientBoostingClassifierобрабатывает только 10 деревьев (!) за 1 минуту и ​​2 секунды :( Я не стал пытаться вырастить 500 деревьев, так …
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

3
Гипертюнинг параметров XGBoost
XGBoost проделал большую работу, когда речь идет о работе как с категориальными, так и с непрерывно зависимыми переменными. Но как выбрать оптимизированные параметры для проблемы XGBoost? Вот как я применил параметры для недавней проблемы Kaggle: param <- list( objective = "reg:linear", booster = "gbtree", eta = 0.02, # 0.06, #0.01, …
27 r  python  xgboost 

5
Образ VM для проектов по науке о данных
Поскольку существует множество инструментов, доступных для задач по науке о данных, и неудобно устанавливать все и создавать идеальную систему. Существует ли образ Linux / Mac OS с установленными и доступными для немедленного использования людьми Python, R и другими открытыми инструментами для анализа данных? Идеально подойдет Ubuntu или легковесная ОС с …
24 python  r  tools 

9
Любая консоль Online R?
Я ищу онлайн-консоль для языка R. Как будто я пишу код, и сервер должен выполнить и предоставить мне вывод. Похоже на сайт Datacamp.
24 r  statistics 

3
есть ли инструмент для очистки данных для python / pandas, похожий на инструмент R tidyr?
Я работаю над проблемой Kaggle, где некоторые переменные представлены строками, а не столбцами (разрушение сети Telstra). В настоящее время я ищу эквивалент функции collect (), separa (() и spread (), который можно найти в инструменте R tidyr.

6
Что вы используете для создания панели инструментов в R?
Мне нужно создавать периодические (ежедневные, ежемесячные) отчеты панели инструментов веб-аналитики. Они будут статичными и не требуют взаимодействия, поэтому представьте файл PDF в качестве конечного результата. В отчетах будут смешаны таблицы и диаграммы (в основном, спарклайн и маркеры, созданные с помощью ggplot2). Подумайте об инструментальных панелях в стиле Стивена Мало / …
17 r  visualization 

2
Рекомендовать фильмы с дополнительными функциями, используя совместную фильтрацию
Я пытаюсь построить систему рекомендаций, используя совместную фильтрацию. У меня есть обычная [user, movie, rating]информация. Я хотел бы включить дополнительную функцию, такую ​​как «язык» или «продолжительность фильма». Я не уверен, какие методы я мог бы использовать для такой проблемы. Пожалуйста, предложите ссылки или пакеты в Python / R.

5
сделать морскую карту тепла больше
Я создаю corr()DF из оригинального DF. corr()ДФ вышел 70 X 70 и невозможно представить себе Heatmap ... sns.heatmap(df). Если я попытаюсь отобразить corr = df.corr(), таблица не умещается на экране, и я вижу все корреляции. Это способ печати всего, dfнезависимо от его размера, или контроля размера тепловой карты?
16 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

3
Как предсказать вероятности в xgboost?
Приведенная ниже функция прогнозирования также дает значения -ve, поэтому она не может быть вероятностью. param <- list(max.depth = 5, eta = 0.01, objective="binary:logistic",subsample=0.9) bst <- xgboost(param, data = x_mat, label = y_mat,nround = 3000) pred_s <- predict(bst, x_mat_s2) Я попробовал Google, pred_s <- predict(bst, x_mat_s2,type="response") но это не сработало. Вопрос …

4
Панды теперь быстрее, чем data.table?
https://github.com/Rdatatable/data.table/wiki/Benchmarks-%3A-Grouping Тесты data.table не обновлялись с 2014 года. Я слышал где-то, что Pandasсейчас быстрее, чем data.table. Это правда? Кто-нибудь делал какие-либо тесты? Я никогда не использовал Python раньше, но подумал бы о переключении, если pandasможет победить data.table?
16 python  r  pandas  data  data.table 

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.