Вопросы с тегом «pandas»

Pandas - это библиотека Python для манипулирования и анализа данных Panel, например, многомерных временных рядов и наборов данных поперечного сечения, обычно встречающихся в статистике, результатах экспериментальной науки, эконометрике или финансах.

1
Разница между isna () и isnull () в пандах
Я уже давно пользуюсь пандами. Но я не понял, в чем разница между isna()и isnull()в пандах. И, что более важно, какой из них использовать для определения пропущенных значений в кадре данных. Какова основная разница в том, как значение определяется как naили null?

11
Почему люди предпочитают панды SQL?
Я использую SQL с 1996 года, поэтому я могу быть предвзятым. Я широко использовал MySQL и SQLite 3, но также использовал Microsoft SQL Server и Oracle. Подавляющее большинство операций, которые я видел в Pandas, можно сделать проще с помощью SQL. Это включает в себя фильтрацию набора данных, выбор определенных столбцов …
69 pandas  sql 

9
ValueError: Входные данные содержат NaN, бесконечность или значение, слишком большое для dtype ('float32')
Я получил ValueError при прогнозировании тестовых данных с использованием модели RandomForest. Мой код: clf = RandomForestClassifier(n_estimators=10, max_depth=6, n_jobs=1, verbose=2) clf.fit(X_fit, y_fit) df_test.fillna(df_test.mean()) X_test = df_test.values y_pred = clf.predict(X_test) Ошибка: ValueError: Input contains NaN, infinity or a value too large for dtype('float32'). Как найти неверные значения в тестовом наборе данных? Кроме …

3
Расчет и визуализация корреляционной матрицы с пандами
У меня есть фрейм данных Pandas с несколькими записями, и я хочу рассчитать корреляцию между доходами магазинов определенного типа. Есть ряд магазинов с данными о доходах, классификацией области деятельности (театр, магазины одежды, продукты питания ...) и другими данными. Я попытался создать новый фрейм данных и вставить столбец с доходами всех …

5
Открытие 20ГБ файла для анализа с пандами
В настоящее время я пытаюсь открыть файл с пандами и python для целей машинного обучения, для меня было бы идеально, чтобы они все были в DataFrame. Теперь размер файла составляет 18 ГБ, а объем оперативной памяти - 32 ГБ, но я получаю ошибки памяти. Из вашего опыта это возможно? Если …

5
Преобразование списка списков в кадр данных Pandas
Я пытаюсь преобразовать список списков, который выглядит следующим образом в Pandas Dataframe [['New York Yankees ', '"Acevedo Juan" ', 900000, ' Pitcher\n'], ['New York Yankees ', '"Anderson Jason"', 300000, ' Pitcher\n'], ['New York Yankees ', '"Clemens Roger" ', 10100000, ' Pitcher\n'], ['New York Yankees ', '"Contreras Jose"', 5500000, ' Pitcher\n']] …
31 pandas 

1
Почему xgboost намного быстрее, чем sklearn GradientBoostingClassifier?
Я пытаюсь обучить модели повышения градиента более чем на 50 тыс. Примеров с 100 числовыми функциями. XGBClassifierобрабатывает 500 деревьев в течение 43 секунд на моей машине, в то время как GradientBoostingClassifierобрабатывает только 10 деревьев (!) за 1 минуту и ​​2 секунды :( Я не стал пытаться вырастить 500 деревьев, так …
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

4
Существует ли простой способ параллельного запуска pandas.DataFrame.isin?
У меня есть программа моделирования и скоринга, которая активно использует DataFrame.isinфункцию панд, просматривая списки «похожих» на Facebook записей отдельных пользователей на каждой из нескольких тысяч конкретных страниц. Это самая трудоемкая часть программы, в большей степени, чем части моделирования или оценки, просто потому, что она работает только на одном ядре, а …



4
Как заполнить пропущенное значение на основе других столбцов в кадре данных Pandas?
Предположим, у меня есть кадр данных 5 * 3, в котором третий столбец содержит пропущенное значение 1 2 3 4 5 NaN 7 8 9 3 2 NaN 5 6 NaN Я надеюсь сгенерировать значение для пропущенного правила, основанного на том, что первый продукт второй столбец 1 2 3 4 …
19 pandas 

3
есть ли инструмент для очистки данных для python / pandas, похожий на инструмент R tidyr?
Я работаю над проблемой Kaggle, где некоторые переменные представлены строками, а не столбцами (разрушение сети Telstra). В настоящее время я ищу эквивалент функции collect (), separa (() и spread (), который можно найти в инструменте R tidyr.

8
Как посчитать количество пропущенных значений в каждой строке в кадре данных Pandas?
Как я могу получить число недостающего значения в каждой строке в панде dataframe. Я хотел бы разделить фреймы данных на различные фреймы данных, которые имеют одинаковое количество пропущенных значений в каждой строке. Любое предложение?
17 python  pandas 

2
Где в рабочем процессе мы должны иметь дело с отсутствующими данными?
Я строю рабочий процесс для создания моделей машинного обучения (в моем случае, с использованием Python pandasи sklearnпакетов) из данных, извлеченных из очень большой базы данных (здесь, Vertica посредством SQL и pyodbc), и критический шаг в этом процессе включает в себя отсутствие значения предикторов. Это просто в рамках единой платформы аналитики …

5
сделать морскую карту тепла больше
Я создаю corr()DF из оригинального DF. corr()ДФ вышел 70 X 70 и невозможно представить себе Heatmap ... sns.heatmap(df). Если я попытаюсь отобразить corr = df.corr(), таблица не умещается на экране, и я вижу все корреляции. Это способ печати всего, dfнезависимо от его размера, или контроля размера тепловой карты?
16 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.