Вопросы с тегом «dataframe»

Фрейм данных является табличной структурой данных. Обычно он содержит данные, где строки - это наблюдения, а столбцы - переменные различных типов. В то время как «фрейм данных» или «фрейм данных» - это термин, используемый для этой концепции в нескольких языках (R, Apache Spark, deedle, Maple, библиотека pandas в Python и библиотека DataFrames в Julia), «таблица» - это термин, используемый в MATLAB и SQL.

7
Pandas dataframe fillna () только некоторые столбцы на месте
Я пытаюсь заполнить никакие значения в кадре данных Pandas с 0 только для некоторого подмножества столбцов. Когда я делаю: import pandas as pd df = pd.DataFrame(data={'a':[1,2,3,None],'b':[4,5,None,6],'c':[None,None,7,8]}) print df df.fillna(value=0, inplace=True) print df Выход: a b c 0 1.0 4.0 NaN 1 2.0 5.0 NaN 2 3.0 NaN 7.0 3 NaN …
155 python  pandas  dataframe 

8
Агрегировать / суммировать несколько переменных на группу (например, сумма, среднее)
Из кадра данных, есть простой способ агрегации ( sum, mean, maxодновременно с) и др несколько переменных? Ниже приведены некоторые примеры данных: library(lubridate) days = 365*2 date = seq(as.Date("2000-01-01"), length = days, by = "day") year = year(date) month = month(date) x1 = cumsum(rnorm(days, 0.05)) x2 = cumsum(rnorm(days, 0.05)) df1 = …

5
Как получить доступ к pandas groupby dataframe по ключу
Как получить доступ к соответствующему фрейму данных groupby в объекте groupby по ключу? Со следующей группой: rand = np.random.RandomState(1) df = pd.DataFrame({'A': ['foo', 'bar'] * 3, 'B': rand.randn(6), 'C': rand.randint(0, 20, 6)}) gb = df.groupby(['A']) Я могу пройти через это, чтобы получить ключи и группы: In [11]: for k, gp …




6
Должен ли я использовать data.frame или матрицу?
Когда следует использовать data.frame, а когда лучше использовать matrix? Оба хранят данные в прямоугольном формате, поэтому иногда это неясно. Существуют ли общие правила, когда следует использовать какой тип данных?
152 r  matrix  dataframe  r-faq 

5
Как избавиться от столбца «Безымянный: 0» в панде DataFrame?
У меня есть ситуация, когда иногда, когда я читаю csvиз, dfя получаю нежелательный индексоподобный столбец с именем unnamed:0. file.csv ,A,B,C 0,1,2,3 1,4,5,6 2,7,8,9 CSV читается с этим: pd.read_csv('file.csv') Unnamed: 0 A B C 0 0 1 2 3 1 1 4 5 6 2 2 7 8 9 Это очень …
152 python  pandas  csv  dataframe 

12
Замена пустых значений (пробел) на NaN в пандах
Я хочу найти все значения в кадре данных Pandas, которые содержат пробелы (любое произвольное количество) и заменить эти значения на NaN. Есть идеи, как это можно улучшить? В основном я хочу включить это: A B C 2000-01-01 -0.532681 foo 0 2000-01-02 1.490752 bar 1 2000-01-03 -1.387326 foo 2 2000-01-04 0.814772 …
152 python  pandas  dataframe 

14
Определите количество значений NA в столбце
Я хочу подсчитать количество NAзначений в столбце фрейма данных. Скажем, мой фрейм данных вызван df, а имя рассматриваемого столбца - col. Я придумал следующее: sapply(df$col, function(x) sum(length(which(is.na(x))))) Это хороший / самый эффективный способ сделать это?
152 r  dataframe 

8
Могут ли панды автоматически распознавать даты?
Сегодня я был приятно удивлен тем фактом, что при чтении данных из файла данных (например) панды могут распознавать типы значений: df = pandas.read_csv('test.dat', delimiter=r"\s+", names=['col1','col2','col3']) Например, это можно проверить следующим образом: for i, r in df.iterrows(): print type(r['col1']), type(r['col2']), type(r['col3']) В частности, целое число, числа с плавающей точкой и строки …
151 python  date  types  dataframe  pandas 

3
Панды создают пустой DataFrame только с именами столбцов
У меня есть динамический DataFrame, который работает нормально, но когда нет данных для добавления в DataFrame, я получаю сообщение об ошибке. И поэтому мне нужно решение для создания пустого DataFrame только с именами столбцов. На данный момент у меня есть что-то вроде этого: df = pd.DataFrame(columns=COLUMN_NAMES) # Note that there …
151 python  pandas  dataframe 

10
Самый быстрый способ заменить NA в большом data.table
У меня есть большая таблица данных , со многими пропущенными значениями, разбросанными по строкам ~ 200 тыс. И 200 столбцам. Я хотел бы как можно более эффективно перекодировать эти значения NA в нули. Я вижу два варианта: 1: преобразовать в data.frame и использовать что-то вроде этого 2: какая-то классная команда …

8
Повторите каждую строку data.frame количество раз, указанное в столбце
df <- data.frame(var1 = c('a', 'b', 'c'), var2 = c('d', 'e', 'f'), freq = 1:3) Какой самый простой способ расширить каждую строку на первые два столбца вышеупомянутого data.frame, чтобы каждая строка повторялась количество раз, указанное в столбце 'freq'? Другими словами, перейти от этого: df var1 var2 freq 1 a d …
150 r  dataframe  replicate 

11
Удалить столбцы из кадра данных, где ВСЕ значения равны NA
У меня возникли проблемы с кадром данных и не может реально решить эту проблему сам: dataframe имеет произвольные свойства, столбцов и каждая строка представляет собой один набор данных . Вопрос в том, как избавиться от столбцов, где для ВСЕХ строк значение равно NA ?
149 r  apply  dataframe 

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.