Вопросы с тегом «bigdata»

Большие данные - это термин для сбора наборов данных, настолько больших и сложных, что их становится трудно обрабатывать с помощью имеющихся в наличии инструментов управления базами данных или традиционных приложений для обработки данных. Проблемы включают в себя захват, курирование, хранение, поиск, обмен, передачу, анализ и визуализацию.

8
Подходит ли Python для больших данных
В этом посте я прочитал, подходит ли язык R для больших данных, из которых состоят большие данные 5TB, и хотя он хорошо справляется с предоставлением информации о возможности работы с данными такого типа, Rон предоставляет очень мало информации Python. Мне было интересно, Pythonможно ли работать с таким большим количеством данных.
14 bigdata  python 

1
Когда реляционная база данных имеет лучшую производительность, чем не реляционная
Когда реляционная база данных, такая как MySQL, имеет лучшую производительность, чем не реляционная, как MongoDB? На днях я видел вопрос о Quora: почему Quora по-прежнему использует MySQL в качестве бэкэнда и что их производительность по-прежнему хорошая.

4
Пример больших данных или пример использования
Я читал много блогов \ статей о том, как разные типы отраслей используют Big Data Analytic. Но в большинстве этих статей не упоминается Какие данные эти компании использовали. Каков был размер данных Какие инструменты технологий они использовали для обработки данных В чем заключалась проблема, с которой они столкнулись, и как …

4
Можем ли мы извлечь выгоду из использования трансферного обучения при обучении моделям word2vec?
Я ищу, чтобы найти предварительно обученные веса уже обученных моделей, таких как данные Новостей Google и т. Д. Мне было трудно обучать новую модель с достаточным количеством данных (10 ГБ и т. Д.) Для себя. Итак, я хочу извлечь выгоду из трансферного обучения, в котором я смог бы получить предварительно …

7
Что такое «старое имя» специалиста по данным?
Такие термины, как «наука о данных» и «ученый данных» все чаще используются в наши дни. Многие компании нанимают «ученого данных». Но я не думаю, что это совершенно новая работа. Данные существовали из прошлого, и кто-то должен был иметь дело с данными. Я думаю, что термин «ученый данных» становится все более …
12 bigdata 

2
Алгоритм сопоставления предпочтений
Есть этот побочный проект, над которым я работаю, где мне нужно структурировать решение следующей проблемы. У меня есть две группы людей (клиентов). Группа Aнамеревается купить, и группа Bнамеревается продать определенный продукт X. Продукт имеет ряд атрибутов x_i, и моя цель состоит в том, чтобы облегчить транзакцию между Aи Bпутем сопоставления …

2
Компромиссы между Storm и Hadoop (MapReduce)
Может ли кто-нибудь любезно рассказать мне о компромиссах, возникающих при выборе между Storm и MapReduce в Hadoop Cluster для обработки данных? Конечно, помимо очевидного, что Hadoop (обработка с помощью MapReduce в кластере Hadoop) является системой пакетной обработки, а Storm - системой обработки в реальном времени. Я немного работал с Hadoop …

3
Как запрос в огромную базу данных возвращает с незначительной задержкой?
Например, при поиске в Google результаты возвращаются практически мгновенно. Я понимаю, что Google сортирует и индексирует страницы с помощью алгоритмов и т. Д., Но я считаю невозможным индексировать результаты каждого отдельного запроса (и результаты персонализируются, что делает это еще более неосуществимым)? Кроме того, не аппаратная задержка в аппаратных средств от …
12 bigdata  google  search 

1
Сколько ячеек LSTM я должен использовать?
Существуют ли какие-либо практические правила (или фактические правила), касающиеся минимального, максимального и «разумного» количества ячеек LSTM, которые я должен использовать? В частности, я имею в виду BasicLSTMCell из TensorFlow и num_unitsсвойства. Пожалуйста, предположите, что у меня есть проблема классификации, определяемая как: t - number of time steps n - length …
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

2
Является ли FPGrowth по-прежнему «современным» в частом поиске паттернов?
Насколько мне известно, разработка алгоритмов для решения проблемы Frequen Pattern Mining (FPM), путь улучшения имеет несколько основных контрольных точек. Во-первых, алгоритм Apriori был предложен в 1993 году Agrawal et al. наряду с формализацией проблемы. Алгоритм был в состоянии убрать некоторые наборы из 2^n - 1наборов (powerset), используя решетку для поддержки …

4
Работа с кластерами HPC
В моем университете у нас есть вычислительный кластер HPC. Я использую кластер для обучения классификаторов и так далее. Поэтому, обычно для отправки задания в кластер (например, сценарий python scikit-learn) мне нужно написать сценарий Bash, который содержит (среди прочего) такую ​​команду qsub script.py. Тем не менее, я нахожу этот процесс очень …

3
Лучшие языки для научных вычислений [закрыто]
Закрыто . Этот вопрос должен быть более сфокусированным . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он был сосредоточен только на одной проблеме, отредактировав этот пост . Закрыто 5 лет назад . Похоже, что большинство языков имеют некоторое количество доступных библиотек научных вычислений. …
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

3
Что быстрее: PostgreSQL против MongoDB на больших наборах данных JSON?
У меня есть большой набор данных с 9-метровыми объектами JSON по ~ 300 байт каждый. Это сообщения из агрегатора ссылок: в основном ссылки (URL, заголовок и идентификатор автора) и комментарии (текст и идентификатор автора) + метаданные. Они вполне могут быть реляционными записями в таблице, за исключением того факта, что у …

2
Масштабируемый выброс / обнаружение аномалий
Я пытаюсь настроить инфраструктуру больших данных, используя Hadoop, Hive, Elastic Search (среди прочих), и я хотел бы запустить некоторые алгоритмы для определенных наборов данных. Мне бы хотелось, чтобы сами алгоритмы были масштабируемыми, поэтому это исключает использование таких инструментов, как Weka, R или даже RHadoop. Библиотека Apache Mahout , по-видимому, является …

3
Как различные статистические методы (регрессия, PCA и т. Д.) Масштабируются в зависимости от размера и размера выборки?
Существует ли известная общая таблица статистических методов, объясняющих, как они масштабируются в зависимости от размера и размера выборки? Например, мой друг сказал мне на днях, что время вычисления простой быстрой сортировки одномерных данных размера n равно n * log (n). Так, например, если мы регрессируем y против X, где X …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.