Вопросы с тегом «pandas»

Pandas - это библиотека Python для манипулирования и анализа данных Panel, например, многомерных временных рядов и наборов данных поперечного сечения, обычно встречающихся в статистике, результатах экспериментальной науки, эконометрике или финансах.

4
Панды теперь быстрее, чем data.table?
https://github.com/Rdatatable/data.table/wiki/Benchmarks-%3A-Grouping Тесты data.table не обновлялись с 2014 года. Я слышал где-то, что Pandasсейчас быстрее, чем data.table. Это правда? Кто-нибудь делал какие-либо тесты? Я никогда не использовал Python раньше, но подумал бы о переключении, если pandasможет победить data.table?
16 python  r  pandas  data  data.table 

3
Pandas Dataframe для DMatrix
Я пытаюсь запустить xgboost в scikit learn. И я использую только Pandas для загрузки данных в dataframe. Как я должен использовать панд DF с xgboost. Меня смущает процедура DMatrix, необходимая для запуска алгоритма xgboost.

1
Преобразование столбца панд int в тип данных timestamp
У меня есть датафрейм, который среди прочего содержит столбец количества миллисекунд, прошедших с 1970-1-1. Мне нужно преобразовать этот столбец целых чисел в данные метки времени, чтобы затем я мог в конечном итоге преобразовать его в столбец данных даты и времени, добавив серию столбцов метки времени в серию, которая полностью состоит …

5
Преимущества pandas dataframe для обычной реляционной базы данных
В Data Science многие, кажется, используют фреймы данных pandas в качестве хранилища данных. Каковы особенности панд, которые делают его превосходным хранилищем данных по сравнению с обычными реляционными базами данных, такими как MySQL , которые используются для хранения данных во многих других областях программирования? Хотя pandas предоставляет некоторые полезные функции для …
13 pandas  databases 

3
Массовое преобразование категориальных столбцов в Pandas (не одноразовое кодирование)
У меня есть панды dataframe с тоннами категоричных колонн, которые я планирую использовать в дерево решений с scikit учиться. Мне нужно преобразовать их в числовые значения (не один горячий вектор). Я могу сделать это с LabelEncoder из scikit учиться. Проблема в том, что их слишком много, и я не хочу …

1
Сколько ячеек LSTM я должен использовать?
Существуют ли какие-либо практические правила (или фактические правила), касающиеся минимального, максимального и «разумного» количества ячеек LSTM, которые я должен использовать? В частности, я имею в виду BasicLSTMCell из TensorFlow и num_unitsсвойства. Пожалуйста, предположите, что у меня есть проблема классификации, определяемая как: t - number of time steps n - length …
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

2
Как объединить два фрейма данных в Python Pandas?
У меня есть два фрейма данных df1 и df2, и я хотел бы объединить их в один фрейм данных. Это как если бы df1 и df2 были созданы путем разделения одного фрейма данных по центру по вертикали, подобно разрыву листа бумаги, который содержит список пополам, так что половина столбцов идет …
12 pandas 

3
Существуют ли хорошие готовые языковые модели для Python?
Я создаю прототип приложения и мне нужна языковая модель для вычисления недоумения в некоторых сгенерированных предложениях. Есть ли в Python обученная языковая модель, которую я могу легко использовать? Что-то простое, как model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert …
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

3
Лучшие языки для научных вычислений [закрыто]
Закрыто . Этот вопрос должен быть более сфокусированным . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он был сосредоточен только на одной проблеме, отредактировав этот пост . Закрыто 5 лет назад . Похоже, что большинство языков имеют некоторое количество доступных библиотек научных вычислений. …
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 


3
Найдите последовательные нули в DataFrame и выполните условную замену
У меня есть такой набор данных: Примерный фрейм данных import pandas as pd df = pd.DataFrame({ 'names': ['A','B','C','D','E','F','G','H','I','J','K','L'], 'col1': [0, 1, 0, 1, 1, 1, 0, 0, 0, 1, 0, 0], 'col2': [0, 0, 0, 0, 1, 0, 1, 0, 1, 0, 0, 0]}) Я хотел бы заменить некоторые из …

3
Как сгруппировать одинаковые значения и посчитать их частоту в Python?
Новичок в аналитике с Python, поэтому, пожалуйста, будьте осторожны :-) Я не смог найти ответ на этот вопрос - извинения, если на него уже ответили в другом формате в другом формате. У меня есть набор данных транзакций для торговой точки. Переменные вместе с объяснением: раздел: раздел магазина, ул; prod_name: название …

3
Построение модели машинного обучения для прогнозирования урожайности на основе экологических данных
У меня есть набор данных, содержащий данные о температуре, количестве осадков и урожайности сои для фермы за 10 лет (2005 - 2014). Я хотел бы прогнозировать урожайность на 2015 год на основе этих данных. Обратите внимание, что набор данных имеет ЕЖЕДНЕВНЫЕ значения для температуры и осадков, но только 1 значение …

1
Как двоично кодировать многозначную категориальную переменную из кадра данных Pandas?
Предположим, у нас есть следующий фрейм данных с несколькими значениями для определенного столбца: categories 0 - ["A", "B"] 1 - ["B", "C", "D"] 2 - ["B", "D"] Как мы можем получить такой стол? "A" "B" "C" "D" 0 - 1 1 0 0 1 - 0 1 1 1 2 …
9 python  pandas 
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.