Вопросы с тегом «pandas»

Pandas - это библиотека Python для манипулирования и анализа данных, например, фреймов данных, многомерных временных рядов и наборов данных поперечного сечения, обычно встречающихся в статистике, результатах экспериментальной науки, эконометрике или финансах. Pandas - одна из основных библиотек данных в Python.

6
как проверить dtype столбца в python pandas
Мне нужно использовать разные функции для обработки числовых и строковых столбцов. То, что я делаю сейчас, действительно глупо: allc = list((agg.loc[:, (agg.dtypes==np.float64)|(agg.dtypes==np.int)]).columns) for y in allc: treat_numeric(agg[y]) allc = list((agg.loc[:, (agg.dtypes!=np.float64)&(agg.dtypes!=np.int)]).columns) for y in allc: treat_str(agg[y]) Есть ли более элегантный способ сделать это? Например for y in agg.columns: if(dtype(agg[y]) == …
135 python  pandas 


14
Как распечатать объект groupby
Я хочу распечатать результат группировки с помощью Pandas. У меня есть фреймворк: import pandas as pd df = pd.DataFrame({'A': ['one', 'one', 'two', 'three', 'three', 'one'], 'B': range(6)}) print(df) A B 0 one 0 1 one 1 2 two 2 3 three 3 4 three 4 5 one 5 При печати …
134 python  pandas 

4
Python pandas: заполняйте фрейм данных строка за строкой
Простая задача добавления строки к pandas.DataFrameобъекту кажется сложной. По этому поводу есть 3 вопроса о stackoverflow, ни один из которых не дает рабочего ответа. Вот что я пытаюсь сделать. У меня есть DataFrame, форма которого я уже знаю, а также имена строк и столбцов. >>> df = pandas.DataFrame(columns=['a','b','c','d'], index=['x','y','z']) >>> …
133 python  dataframe  row  pandas 

20
Как я могу выполнить горячее кодирование в Python?
У меня проблема классификации машинного обучения с 80% категориальных переменных. Должен ли я использовать одно горячее кодирование, если я хочу использовать какой-либо классификатор для классификации? Могу ли я передать данные классификатору без кодировки? Я пытаюсь сделать следующее для выбора функции: Прочитал досье поезда: num_rows_to_read = 10000 train_small = pd.read_csv("../../dataset/train.csv", nrows=num_rows_to_read) …

5
Pandas DataFrame: заменить все значения в столбце в зависимости от условия
У меня есть простой DataFrame, подобный следующему: Я хочу выбрать все значения в столбце «Первый сезон» и заменить те, которые превышают 1990 год, на 1. В этом примере только у Baltimore Ravens значение 1996 года будет заменено на 1 (оставив остальные данные без изменений). Я использовал следующее: df.loc[(df['First Season'] > …
132 python  pandas  dataframe 

5
Нормализовать данные в пандах
Предположим, у меня есть фрейм данных pandas df: Я хочу вычислить среднее значение кадра данных по столбцам. Это просто: df.apply(average) затем диапазон столбцов max (col) - min (col). Это снова просто: df.apply(max) - df.apply(min) Теперь для каждого элемента я хочу вычесть среднее значение его столбца и разделить на диапазон его …
131 python  pandas  numpy 

3
каков самый эффективный способ подсчета вхождений в пандах?
У меня есть большой (около 12 миллионов строк) dataframe df, скажем: df.columns = ['word','documents','frequency'] Таким образом, своевременно выполнялось следующее: word_grouping = df[['word','frequency']].groupby('word') MaxFrequency_perWord = word_grouping[['frequency']].max().reset_index() MaxFrequency_perWord.columns = ['word','MaxFrequency'] Однако это занимает неожиданно много времени: Occurrences_of_Words = word_grouping[['word']].count().reset_index() Что я здесь делаю не так? Есть ли лучший способ подсчета вхождений в …
131 python  pandas 

2
проверьте, является ли переменная кадром данных
когда моя функция f вызывается с переменной, я хочу проверить, является ли var фреймом данных pandas: def f(var): if var == pd.DataFrame(): print "do stuff" Думаю, решение может быть довольно простым, но даже с def f(var): if var.values != None: print "do stuff" Я не могу заставить его работать так, …
131 python  pandas 

4
Объедините список фреймов данных pandas вместе
У меня есть список фреймов данных Pandas, которые я хотел бы объединить в один фрейм данных Pandas. Я использую Python 2.7.10 и Pandas 0.16.2 Я создал список фреймов данных из: import pandas as pd dfs = [] sqlall = "select * from mytable" for chunk in pd.read_sql_query(sqlall , cnxn, chunksize=10000): …


3
Несколько агрегаций одного и того же столбца с использованием pandas GroupBy.agg ()
Есть ли встроенный в pandas способ применения двух разных агрегатных функций f1, f2к одному и тому же столбцу df["returns"]без необходимости вызывать agg()несколько раз? Пример фрейма данных: import pandas as pd import datetime as dt pd.np.random.seed(0) df = pd.DataFrame({ "date" : [dt.date(2012, x, 1) for x in range(1, 11)], "returns" : …

8
Как я могу построить отдельные кадры данных Pandas в качестве подзаголовков?
У меня есть несколько Pandas DataFrames с одинаковой шкалой значений, но с разными столбцами и индексами. При вызове df.plot()получаю отдельные сюжетные изображения. на самом деле я хочу, чтобы все они находились в одном сюжете с подсюжетами, но, к сожалению, я не могу придумать решение, как это сделать, и был бы …

10
Как получить список всех повторяющихся элементов с помощью панд в Python?
У меня есть список товаров, у которых, вероятно, есть проблемы с экспортом. Я хотел бы получить список повторяющихся элементов, чтобы я мог их вручную сравнить. Когда я пытаюсь использовать дублированный метод pandas , он возвращает только первый дубликат. Есть ли способ получить все дубликаты, а не только первый? Небольшая часть …

7
Удаление столбца индекса в пандах при чтении csv
У меня есть следующий код, который импортирует файл CSV. Есть 3 столбца, и я хочу установить первые два из них в качестве переменных. Когда я устанавливаю для второго столбца переменную «эффективность», индексный столбец также присоединяется. Как мне избавиться от столбца индекса? df = pd.DataFrame.from_csv('Efficiency_Data.csv', header=0, parse_dates=False) energy = df.index efficiency …
128 python  pandas 

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.