Вопросы с тегом «pandas»

Pandas - это библиотека Python для манипулирования и анализа данных, например, фреймов данных, многомерных временных рядов и наборов данных поперечного сечения, обычно встречающихся в статистике, результатах экспериментальной науки, эконометрике или финансах. Pandas - одна из основных библиотек данных в Python.

1
Применить функцию к каждой ячейке в DataFrame
У меня есть фрейм данных, который может выглядеть так: A B C foo bar foo bar bar foo foo bar Я хочу просмотреть каждый элемент каждой строки (или каждый элемент каждого столбца) и применить следующую функцию, чтобы получить последующий DF: def foo_bar(x): return x.replace('foo', 'wow') A B C wow bar …

3
извлечение дней из значения numpy.timedelta64
Я использую pandas / python, и у меня есть два временных ряда s1 и s2, которые были сгенерированы с использованием функции to_datetime в поле df, содержащем даты / время. Когда я вычитаю s1 из s2 s3 = s2 - s1 Я получаю серию s3 типа timedelta64 [нс] 0 385 days, …
87 python  numpy  pandas 

5
Удаление строк, содержащих пустые ячейки, из фрейма данных pandas
У меня есть файл, pd.DataFrameкоторый был создан путем анализа некоторых таблиц Excel. Столбец, в котором есть пустые ячейки. Например, ниже приведены выходные данные для частоты этого столбца, 32320 записей имеют пропущенные значения для Tenant . >>> value_counts(Tenant, normalize=False) 32320 Thunderhead 8170 Big Data Others 5700 Cloud Cruiser 5700 Partnerpedia 5700 …
87 python  pandas 

5
Сдвинуть столбец в кадре данных pandas на один?
У меня есть фреймворк pandas. Я хочу «запаздывать» одну из моих колонок. Это означает, например, сдвиг всего столбца 'gdp' вверх на единицу, а затем удаление всех лишних данных в нижней части оставшихся строк, чтобы все столбцы снова стали равной длины. df = y gdp cap 0 1 2 5 1 …

9
Как сделать строковый столбец pandas dataframe в нижнем регистре, если в нем отсутствуют значения?
Следующий код не работает. import pandas as pd import numpy as np df=pd.DataFrame(['ONE','Two', np.nan],columns=['x']) xLower = df["x"].map(lambda x: x.lower()) Как мне настроить его, чтобы получить xLower = ['one', 'two', np.nan]? Эффективность важна, поскольку реальный фрейм данных огромен.

8
Панды: скользящее среднее по временному интервалу
Я новичок в Pandas .... У меня есть много данных опроса; Я хочу вычислить скользящее среднее, чтобы получить оценку на каждый день на основе трехдневного окна. Как я понял из этого вопроса , функции Rolling_ * вычисляют окно на основе указанного количества значений, а не определенного диапазона дат и времени. …

2
Как установить некоторые xlim и ylim в фасетной сетке Seaborn lmplot
Я использую lmplot Сиборна для построения линейной регрессии, разделив мой набор данных на две группы с помощью категориальной переменной. И для x, и для y я хотел бы вручную установить нижнюю границу на обоих графиках, но оставил верхнюю границу по умолчанию Seaborn. Вот простой пример: import pandas as pd import …
87 python  pandas  seaborn 

13
ValueError: numpy.dtype имеет неправильный размер, попробуйте перекомпилировать
Я только что установил пакет pandas и statsmodels на свой python 2.7. Когда я попробовал «импортировать pandas как pd», появляется это сообщение об ошибке. Кто-нибудь может помочь? Благодарность!!! numpy.dtype has the wrong size, try recompiling Traceback (most recent call last): File "<stdin>", line 1, in <module> File "C:\analytics\ext\python27\lib\site-packages\statsmodels-0.5.0-py2.7-win32.egg\statsmodels\formula\__init__.py", line 4, …

9
Как сохранить новый лист в существующем файле Excel с помощью Pandas?
Я хочу использовать файлы Excel для хранения данных, разработанных с помощью Python. Моя проблема в том, что я не могу добавлять листы в существующий файл Excel. Здесь я предлагаю образец кода для работы, чтобы решить эту проблему. import pandas as pd import numpy as np path = r"C:\Users\fedel\Desktop\excelData\PhD_data.xlsx" x1 = …

1
Сиборн показывает научную запись на тепловой карте для трехзначных чисел
Я создаю тепловую карту из pivot_table pandas, как показано ниже: table2 = pd.pivot_table(df,values='control',columns='Year',index='Region',aggfunc=np.sum) sns.heatmap(table2,annot=True,cmap='Blues') Он создает тепловую карту, как показано ниже. Вы можете видеть, что числа не огромны (максимум 750), но они показаны в научном обозначении. Если я смотрю на саму таблицу, это не так. Есть идеи, как я могу …

8
Разделить большой фрейм данных pandas
У меня большой фрейм данных с 423244 строками. Я хочу разделить это на 4. Я пробовал следующий код, который дал ошибку?ValueError: array split does not result in an equal division for item in np.split(df, 4): print item Как разделить этот фрейм данных на 4 группы?
86 python  pandas 

6
pandas: сложный фильтр по строкам DataFrame
Я хотел бы фильтровать строки по функции каждой строки, например def f(row): return sin(row['velocity'])/np.prod(['masses']) > 5 df = pandas.DataFrame(...) filtered = df[apply_to_all_rows(df, f)] Или другой, более сложный, надуманный пример: def g(row): if row['col1'].method1() == 1: val = row['col1'].method2() / row['col1'].method3(row['col3'], row['col4']) else: val = row['col2'].method5(row['col6']) return np.sin(val) df = pandas.DataFrame(...) …
86 python  pandas 

3
Как задать пользовательские цвета для гистограммы pandas / matplotlib
Я только начал использовать pandas / matplotlib в качестве замены Excel для создания столбчатых диаграмм с накоплением. Я столкнулся с проблемой (1) в палитре по умолчанию всего 5 цветов, поэтому, если у меня больше 5 категорий, цвета повторяются. Как я могу указать больше цветов? В идеале, градиент с начальным и …

3
Объедините два фрейма данных pandas (объедините в общем столбце)
У меня есть 2 фрейма данных: restaurant_ids_dataframe Data columns (total 13 columns): business_id 4503 non-null values categories 4503 non-null values city 4503 non-null values full_address 4503 non-null values latitude 4503 non-null values longitude 4503 non-null values name 4503 non-null values neighborhoods 4503 non-null values open 4503 non-null values review_count 4503 …

6
Панды: преобразование категорий в числа
Предположим, у меня есть фрейм данных со странами, который выглядит так: cc | temp US | 37.0 CA | 12.0 US | 35.0 AU | 20.0 Я знаю, что есть функция pd.get_dummies для преобразования стран в «горячие кодировки». Однако я хочу вместо этого преобразовать их в индексы, чтобы получить cc_index …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.