Вопросы с тегом «dataset»

Набор данных - это набор данных, часто в табличной или матричной форме. Этот тег НЕ предназначен для запросов данных («где я могу найти набор данных о ...») -> см. OpenData

6
Наборы данных с пониманием лучших практик
Я магистрант CS в области интеллектуального анализа данных. Мой руководитель однажды сказал мне, что перед тем, как запустить какой-либо классификатор или сделать что-либо с набором данных, я должен полностью понять данные и убедиться, что данные чистые и правильные. Мои вопросы: Как лучше всего понимать набор данных (большой размер с числовыми …

4
Одна горячая альтернатива кодирования для больших категориальных значений?
У меня есть датафрейм с большими категориальными значениями более 1600 категорий, есть ли способ найти альтернативы, чтобы у меня не было более 1600 столбцов. Я нашел эту интересную ссылку ниже http://amunategui.github.io/feature-hashing/#sourcecode Но они конвертируются в класс / объект, который я не хочу. Я хочу, чтобы мой конечный результат был в …

2
почему мы должны справиться с дисбалансом данных?
Мне нужно знать, почему мы должны бороться с дисбалансом данных. Я знаю, как с этим справляться, и различными методами для решения проблемы, которая заключается в повышении или понижении или использовании Smote. Например, если у меня редкое заболевание 1% из 100, и, скажем, я решил иметь сбалансированный набор данных для моего …

2
Тарифы авиакомпаний - Какой анализ следует использовать для выявления конкурентного поведения при установлении цен и ценовых корреляций?
Я хочу исследовать поведение авиакомпаний в отношении ценообразования - особенно то, как авиакомпании реагируют на ценообразование конкурентов. Как я сказал бы, мои знания о более сложном анализе довольно ограничены, я использовал в основном все основные методы для сбора общего представления о данных. Это включает в себя простые графики, которые уже …

4
Загрузка большого набора данных в Интернете непосредственно в AWS S3
Кто-нибудь знает, возможно ли импортировать большой набор данных в Amazon S3 с URL? По сути, я хочу избежать загрузки огромного файла и последующей его загрузки на S3 через веб-портал. Я просто хочу указать URL-адрес загрузки для S3 и подождать, пока они загрузят его в свою файловую систему. Это кажется легким …
12 dataset  aws 

1
Сколько ячеек LSTM я должен использовать?
Существуют ли какие-либо практические правила (или фактические правила), касающиеся минимального, максимального и «разумного» количества ячеек LSTM, которые я должен использовать? В частности, я имею в виду BasicLSTMCell из TensorFlow и num_unitsсвойства. Пожалуйста, предположите, что у меня есть проблема классификации, определяемая как: t - number of time steps n - length …
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

3
Существуют ли хорошие готовые языковые модели для Python?
Я создаю прототип приложения и мне нужна языковая модель для вычисления недоумения в некоторых сгенерированных предложениях. Есть ли в Python обученная языковая модель, которую я могу легко использовать? Что-то простое, как model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert …
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

2
Сколько данных достаточно для обучения моей модели машинного обучения?
Я некоторое время работал над машинным обучением и биоинформатикой, и сегодня у меня был разговор с коллегой по основным общим вопросам интеллектуального анализа данных. Мой коллега (который является экспертом по машинному обучению) сказал, что, по его мнению, возможно, наиболее важный практический аспект машинного обучения заключается в том, как понять, собрали …

4
Где я могу скачать историческую рыночную капитализацию и ежедневные данные об обороте акций?
Существует множество источников, которые предоставляют исторические данные о запасах, но они предоставляют только поля OHLC вместе с объемом и скорректированным закрытием. Также несколько источников, которые я нашел, предоставляют наборы рыночной капитализации, но они ограничены акциями США. Yahoo Finance предоставляет эти данные онлайн, но нет возможности загрузить их (или ни одной …
11 dataset 

3
Когда мы должны считать набор данных несбалансированным?
Я сталкиваюсь с ситуацией, когда количество положительных и отрицательных примеров в наборе данных несбалансировано. Мой вопрос заключается в том, есть ли какие-то практические правила, которые говорят нам, когда нам следует отбирать большую категорию, чтобы навязать некоторый баланс в наборе данных. Примеры: Если число положительных примеров равно 1000, а число отрицательных …

3
Сетевой анализ классических наборов данных
Существует несколько классических наборов данных для задач классификации / регрессии машинного обучения. Наиболее популярными являются: Набор данных Iris Flower ; Титаник Набор Данных ; Motor Trend Cars ; и т.п. Но кто-нибудь знает подобные наборы данных для анализа сетей / теории графов? Более конкретно - я ищу наборы данных золотого …
10 dataset  graphs 

1
Может ли HDF5 надежно записываться и считываться одновременно отдельными процессами Python?
Я пишу сценарий для записи живых данных с течением времени в один файл HDF5, который включает весь мой набор данных для этого проекта. Я работаю с Python 3.6 и решил создать инструмент командной строки, используя clickдля сбора данных. Меня беспокоит, что произойдет, если сценарий сбора данных записывает данные в файл …
9 python  dataset 

2
Наборы эталонных данных для совместной фильтрации
Я хотел бы протестировать новый алгоритм совместной фильтрации . Типичный вариант использования - рекомендовать фильмы на основе предпочтений пользователей, похожих на конкретного пользователя. Какие наборы эталонных данных часто используют исследователи для проверки своих алгоритмов? Я знаю, что в Computer Vision люди часто используют MNIST или CIFAR, но я не нашел …

2
Как смоделировать покупательское поведение пользователя на Amazon?
Для нашего окончательного курсового проекта в Data Science мы предложили следующее: Предоставляя набор данных Amazon Reviews , мы планируем разработать алгоритм (который примерно основан на персонализированном PageRank), который определяет стратегическую позицию для размещения рекламы на Amazon. Например, на Amazon есть миллионы продуктов. И набор данных дает вам представление о том, …

4
Предложить наборы учебных текстовых классификаторов
Какие свободно доступные наборы данных я могу использовать для обучения текстового классификатора? Мы пытаемся повысить заинтересованность наших пользователей, порекомендовав для него наиболее связанный контент, поэтому мы подумали, что если мы классифицируем наш контент на основе заранее определенного набора слов, мы можем порекомендовать ему интересный контент, получив его отзыв о случайном …
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.