Вопросы с тегом «pandas»

Pandas - это библиотека Python для манипулирования и анализа данных, например, фреймов данных, многомерных временных рядов и наборов данных поперечного сечения, обычно встречающихся в статистике, результатах экспериментальной науки, эконометрике или финансах. Pandas - одна из основных библиотек данных в Python.


9
Заменить недопустимые значения на None в Pandas DataFrame
Есть ли способ заменить значения Noneв Pandas в Python? Вы можете использовать df.replace('pre', 'post')и можете заменить одно значение другим, но этого нельзя сделать, если вы хотите заменить на Noneзначение, которое при попытке получить странный результат. Итак, вот пример: df = DataFrame(['-',3,2,5,1,-5,-1,'-',9]) df.replace('-', 0) который возвращает успешный результат. Но, df.replace('-', None) …

6
Агрегатная функция Pandas DataFrame с использованием нескольких столбцов
Есть ли способ написать функцию агрегирования, используемую в DataFrame.aggметоде, которая имела бы доступ к более чем одному столбцу агрегируемых данных? Типичными вариантами использования являются функции взвешенного среднего и взвешенного стандартного отклонения. Я бы хотел написать что-нибудь вроде def wAvg(c, w): return ((c * w).sum() / w.sum()) df = DataFrame(....) # …
80 python  pandas 

6
Удаление / обрезка всех строк фрейма данных
Очистив значения фрейма данных с несколькими типами в python / pandas, я хочу обрезать строки. Сейчас я делаю это по двум инструкциям: import pandas as pd df = pd.DataFrame([[' a ', 10], [' c ', 5]]) df.replace('^\s+', '', regex=True, inplace=True) #front df.replace('\s+$', '', regex=True, inplace=True) #end df.values Это довольно медленно, …

8
Ошибка памяти при использовании pandas read_csv
Я пытаюсь сделать что-то довольно простое, читая большой файл csv в фреймворк pandas. data = pandas.read_csv(filepath, header = 0, sep = DELIMITER,skiprows = 2) Код либо не работает с a MemoryError, либо никогда не завершается. Использование памяти в диспетчере задач остановилось на 506 МБ, и после 5 минут отсутствия изменений …
79 python  windows  pandas 

3
Странная ошибка в Pandas и Numpy в отношении многопоточности
Большая часть функции Numpy по умолчанию включает многопоточность. например, я работаю на 8-ядерном компьютере Intel Cpu, если я запускаю скрипт import numpy as np x=np.random.random(1000000) for i in range(100000): np.sqrt(x) Linux topпокажет 800% загрузки процессора во время работы, что означает, что numpy автоматически обнаруживает, что моя рабочая станция имеет 8 …
25 python  pandas  numpy 

7
Добавить новый столбец в фрейм данных на основе словаря
У меня есть датафрейм и словарь. Мне нужно добавить новый столбец в фрейм данных и рассчитать его значения на основе словаря. Машинное обучение, добавление новой функции на основе некоторой таблицы: score = {(1, 45, 1, 1) : 4, (0, 1, 2, 1) : 5} df = pd.DataFrame(data = { 'gender' …

7
Проверьте, содержит ли столбец pandas все элементы из списка
У меня есть df, как это: frame = pd.DataFrame({'a' : ['a,b,c', 'a,c,f', 'b,d,f','a,z,c']}) И список предметов: letters = ['a','c'] Моя цель - получить все строки из frameкоторых содержат как минимум 2 элемента вletters Я придумал это решение: for i in letters: subframe = frame[frame['a'].str.contains(i)] Это дает мне то, что я …
20 python  pandas 

5
Unstack и возвращаемое значение считается для каждой переменной?
У меня есть фрейм данных, в котором записаны ответы людей, выбравших языки программирования 19717 года на вопросы с несколькими вариантами ответов. В первом столбце, конечно, указывается пол респондента, а в остальных - выбор, который они выбрали. И, следовательно, если я выберу Python, мой ответ будет записан в столбце Python, а …


3
Как преобразовать pandas dataframe в иерархический словарь
У меня есть следующий пандас dataframe: df1 = pd.DataFrame({'date': [200101,200101,200101,200101,200102,200102,200102,200102],'blockcount': [1,1,2,2,1,1,2,2],'reactiontime': [350,400,200,250,100,300,450,400]}) Я пытаюсь создать иерархический словарь со значениями встроенного словаря в виде списков, который выглядит следующим образом: {200101: {1:[350, 400], 2:[200, 250]}, 200102: {1:[100, 300], 2:[450, 400]}} Как бы я это сделал? Самое близкое, что я получаю, это использование …
16 python  pandas 


5
Предотвращение приведения кадров данных панд при индексации и вставке строк
Я работаю с отдельными строками фреймов данных Pandas, но я спотыкаюсь о проблемах принуждения при индексации и вставке строк. Панды, кажется, всегда хотят привести к смешанному типу int / float к типам с плавающей точкой, и я не вижу каких-либо очевидных элементов управления этим поведением. Например, вот простой фрейм данных …


3
Получите ближайшее расстояние с двумя геоданных в пандах
Вот мой первый геодатфрейм: !pip install geopandas import pandas as pd import geopandas city1 = [{'City':"Buenos Aires","Country":"Argentina","Latitude":-34.58,"Longitude":-58.66}, {'City':"Brasilia","Country":"Brazil","Latitude":-15.78 ,"Longitude":-70.66}, {'City':"Santiago","Country":"Chile ","Latitude":-33.45 ,"Longitude":-70.66 }] city2 = [{'City':"Bogota","Country":"Colombia ","Latitude":4.60 ,"Longitude":-74.08}, {'City':"Caracas","Country":"Venezuela","Latitude":10.48 ,"Longitude":-66.86}] city1df = pd.DataFrame(city1) city2df = pd.DataFrame(city2) gcity1df = geopandas.GeoDataFrame( city1df, geometry=geopandas.points_from_xy(city1df.Longitude, city1df.Latitude)) gcity2df = geopandas.GeoDataFrame( city2df, geometry=geopandas.points_from_xy(city2df.Longitude, city2df.Latitude)) City1 City …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.