Вопросы с тегом «databases»

Исчерпывающий набор связанных данных, организованных для удобного доступа, обычно связанных с программным обеспечением для обновления и запроса данных.

9
Как бороться с управлением версиями больших объемов (двоичных) данных
Я аспирант геофизики и работаю с большими объемами графических данных (сотни ГБ, десятки тысяч файлов). Я хорошо знаю svnи gitприхожу оценивать историю проекта в сочетании с возможностью легко работать вместе и иметь защиту от повреждения диска. Я нахожу gitтакже чрезвычайно полезным для создания последовательных резервных копий, но я знаю, что …

3
Лучшие практики для хранения моделей машинного обучения Python
Каковы лучшие практики для сохранения, хранения и обмена моделями машинного обучения? В Python мы обычно храним двоичное представление модели, используя pickle или joblib. Модели, в моем случае, могут быть размером ~ 100Mo. Кроме того, joblib может сохранять одну модель в нескольких файлах, если вы не укажете compress=1( /programming/33497314/sklearn-dumping-model-using-joblib-dumps-multiple-files-which-one-is-the- кор ). …


5
сделать морскую карту тепла больше
Я создаю corr()DF из оригинального DF. corr()ДФ вышел 70 X 70 и невозможно представить себе Heatmap ... sns.heatmap(df). Если я попытаюсь отобразить corr = df.corr(), таблица не умещается на экране, и я вижу все корреляции. Это способ печати всего, dfнезависимо от его размера, или контроля размера тепловой карты?
16 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

1
Neo4j против OrientDB против Титана
Я работаю над научно-исследовательским проектом, связанным с анализом социальных отношений, и мне нужно хранить данные в некоторых графовых базах данных. Изначально я выбрал Neo4j в качестве базы данных. Но швы Neo4j плохо масштабируются. Альтернатива, которую я обнаружил, это Titan и oriebtDB. Я провел это сравнение этих трех баз данных, но …

1
Когда реляционная база данных имеет лучшую производительность, чем не реляционная
Когда реляционная база данных, такая как MySQL, имеет лучшую производительность, чем не реляционная, как MongoDB? На днях я видел вопрос о Quora: почему Quora по-прежнему использует MySQL в качестве бэкэнда и что их производительность по-прежнему хорошая.

5
Преимущества pandas dataframe для обычной реляционной базы данных
В Data Science многие, кажется, используют фреймы данных pandas в качестве хранилища данных. Каковы особенности панд, которые делают его превосходным хранилищем данных по сравнению с обычными реляционными базами данных, такими как MySQL , которые используются для хранения данных во многих других областях программирования? Хотя pandas предоставляет некоторые полезные функции для …
13 pandas  databases 

3
Эффективная модель базы данных для хранения данных, проиндексированных с помощью n-грамм
Я работаю над приложением, которое требует создания очень большой базы данных n-грамм, которые существуют в большом текстовом корпусе. Мне нужны три эффективных типа операций: поиск и вставка, проиндексированные самой n-граммой, и запрос всех n-граммов, которые содержат вложенную n-грамм. Для меня это звучит так, будто база данных должна быть гигантским деревом …
12 nlp  databases 

3
Лучшие языки для научных вычислений [закрыто]
Закрыто . Этот вопрос должен быть более сфокусированным . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он был сосредоточен только на одной проблеме, отредактировав этот пост . Закрыто 5 лет назад . Похоже, что большинство языков имеют некоторое количество доступных библиотек научных вычислений. …
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

3
Что быстрее: PostgreSQL против MongoDB на больших наборах данных JSON?
У меня есть большой набор данных с 9-метровыми объектами JSON по ~ 300 байт каждый. Это сообщения из агрегатора ссылок: в основном ссылки (URL, заголовок и идентификатор автора) и комментарии (текст и идентификатор автора) + метаданные. Они вполне могут быть реляционными записями в таблице, за исключением того факта, что у …

2
Является ли это сравнение Neo4j со временем выполнения СУБД правильным?
Справочная информация: Ниже приводится книга « Базы данных графиков» , в которой описывается тест производительности, упомянутый в книге « Neo4j в действии» : Отношения в графе естественно образуют пути. Запрос или обход графика включает в себя следующие пути. Из-за принципиально ориентированной на путь природы модели данных большинство операций с базой …
10 databases  nosql  neo4j 

2
Распознавание человеческой деятельности с помощью набора данных смартфона
Я новичок в этом сообществе, и, надеюсь, мой вопрос вполне уместится здесь. В рамках моего курса по анализу данных для студентов я выбрал проект по распознаванию человеческой деятельности с использованием наборов данных смартфона. Что касается меня, то эта тема касается машинного обучения и опорных векторных машин. Я еще не очень …
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.