Вопросы с тегом «dataset»

Набор данных - это набор данных, часто в табличной или матричной форме. Этот тег НЕ предназначен для запросов данных («где я могу найти набор данных о ...») -> см. OpenData

30
Публично доступные наборы данных
Одной из распространенных проблем в науке о данных является сбор данных из различных источников в несколько очищенном (полуструктурированном) формате и объединение метрик из различных источников для проведения анализа более высокого уровня. Глядя на усилия других людей, особенно другие вопросы на этом сайте, кажется, что многие люди в этой области делают …

5
Должен ли я пойти на «сбалансированный» набор данных или «представительный» набор данных?
Моя задача «машинного обучения» - отделить доброкачественный интернет-трафик от вредоносного. В сценарии реального мира большая часть (скажем, 90% или более) интернет-трафика является доброкачественной. Таким образом, я почувствовал, что должен выбрать аналогичную настройку данных для обучения своих моделей. Но я наткнулся на одну или две исследовательские работы (в своей области работы), …

1
Почему xgboost намного быстрее, чем sklearn GradientBoostingClassifier?
Я пытаюсь обучить модели повышения градиента более чем на 50 тыс. Примеров с 100 числовыми функциями. XGBClassifierобрабатывает 500 деревьев в течение 43 секунд на моей машине, в то время как GradientBoostingClassifierобрабатывает только 10 деревьев (!) за 1 минуту и ​​2 секунды :( Я не стал пытаться вырастить 500 деревьев, так …
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

4
Краткое руководство по обучению сильно несбалансированных наборов данных
У меня проблема с классификацией примерно 1000 положительных и 10000 отрицательных образцов в тренировочном наборе. Так что этот набор данных довольно несбалансированный. Обычный случайный лес просто пытается пометить все тестовые образцы как мажоритарный класс. Некоторые хорошие ответы о подвыборке и взвешенном случайном лесе приведены здесь: Каковы последствия для обучения ансамбля …

7
Общедоступные наборы данных / API социальных сетей
В качестве дополнения к нашему большому списку общедоступных наборов данных , я хотел бы знать, существует ли какой-либо список общедоступных наборов данных социальных сетей / API для сканирования. Было бы очень хорошо, если бы наряду со ссылкой на набор данных / API были добавлены характеристики доступных данных. Такая информация должна …

4
Всегда ли лучше использовать весь набор данных для обучения окончательной модели?
Обычная техника после обучения, проверки и тестирования предпочтительной модели машинного обучения заключается в использовании полного набора данных, включая подмножество тестирования, для обучения окончательной модели для ее развертывания , например, в продукте. Мой вопрос: всегда ли это лучше? Что, если производительность действительно ухудшается? Например, давайте предположим случай, когда модель получает около …

3
Идеи проекта Data Science [закрыто]
Закрыто . Этот вопрос основан на мнении . В настоящее время не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы ответить на него фактами и цитатами, отредактировав этот пост . Закрыто 5 лет назад . Я не знаю, является ли это правильным местом для того, чтобы задать этот вопрос, …

3
Как создать синтетический набор данных, используя модель машинного обучения, изученную с использованием исходного набора данных?
Как правило, модель машинного обучения построена на наборах данных. Я хотел бы знать, существует ли какой-либо способ генерирования синтетического набора данных с использованием такой обученной модели машинного обучения, сохраняющей исходные характеристики набора данных? [оригинальные данные -> построить модель машинного обучения -> использовать модель ml для генерации синтетических данных .... !!!] …

3
Набор данных для распознавания именованных объектов в неформальном тексте
В настоящее время я ищу маркированные наборы данных, чтобы обучить модель извлекать именованные объекты из неформального текста (что-то похожее на твиты). Поскольку в документах из моего набора данных часто не хватает заглавных букв и грамматики, я ищу данные вне домена, которые немного более «неформальны», чем новостная статья и записи в …
18 dataset  nlp 

3
есть ли инструмент для очистки данных для python / pandas, похожий на инструмент R tidyr?
Я работаю над проблемой Kaggle, где некоторые переменные представлены строками, а не столбцами (разрушение сети Telstra). В настоящее время я ищу эквивалент функции collect (), separa (() и spread (), который можно найти в инструменте R tidyr.

5
сделать морскую карту тепла больше
Я создаю corr()DF из оригинального DF. corr()ДФ вышел 70 X 70 и невозможно представить себе Heatmap ... sns.heatmap(df). Если я попытаюсь отобразить corr = df.corr(), таблица не умещается на экране, и я вижу все корреляции. Это способ печати всего, dfнезависимо от его размера, или контроля размера тепловой карты?
16 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

2
Почему переменные данных обучения и испытаний определяются с использованием заглавной буквы (в Python)?
Я надеюсь, что этот вопрос является наиболее подходящим на этом сайте ... В Python обычно имя класса определяется с использованием заглавной буквы в качестве первого символа, например class Vehicle: ... Однако в области машинного обучения часто данные обучения и испытаний определяются как Xи Y- не xи y. Например, я сейчас …
15 python  dataset 

3
Есть ли в ImageNet класс человека? Есть ли классы, связанные с людьми?
Если я смотрю на одном из многочисленных источников для классов Imagenet по Интернету я не могу найти ни одного класса , связанного с людьми (и нет, сенокосец не тот , кто собирает, но это то , что я знал , как папа Longlegs, своего рода паук :-). Как это возможно? …

3
Должен ли я использовать несбалансированный класс в рамках выборки в моих наборах данных для проверки / тестирования?
Я новичок в машинном обучении и сталкиваюсь с ситуацией. Я работаю над проблемой ставок в реальном времени с набором данных IPinYou и пытаюсь сделать прогноз клика. Дело в том, что, как вы, возможно, знаете, набор данных очень несбалансирован: около 1300 отрицательных примеров (без кликов) на 1 положительный пример (клик). Это …

2
Анализ результатов A / B-теста, которые обычно не распределяются, с использованием независимого t-теста
У меня есть набор результатов теста A / B (одна контрольная группа, одна группа объектов), которые не соответствуют нормальному распределению. На самом деле распределение больше напоминает распределение Ландау. Я считаю, что независимый критерий Стьюдента требует, чтобы образцы были, по крайней мере, приблизительно нормально распределены, что отговаривает меня использовать критерий Стьюдента …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.