Вопросы с тегом «dataframe»

Фрейм данных является табличной структурой данных. Обычно он содержит данные, где строки - это наблюдения, а столбцы - переменные различных типов. В то время как «фрейм данных» или «фрейм данных» - это термин, используемый для этой концепции в нескольких языках (R, Apache Spark, deedle, Maple, библиотека pandas в Python и библиотека DataFrames в Julia), «таблица» - это термин, используемый в MATLAB и SQL.

10
Разделение словаря / списка внутри столбца панд на отдельные столбцы
У меня есть данные, сохраненные в базе данных postgreSQL. Я запрашиваю эти данные с помощью Python2.7 и превращаю их в Pandas DataFrame. Однако последний столбец этого информационного кадра содержит словарь (или список?) Значений внутри него. DataFrame выглядит следующим образом: [1] df Station ID Pollutants 8809 {"a": "46", "b": "3", "c": …

2
Выберите строки в pandas MultiIndex DataFrame
Каковы наиболее распространенные способы выбора / фильтрации строк фрейма данных, индекс которого является MultiIndex ? Нарезка на основе одного значения / метки Нарезка на основе нескольких этикеток с одного или нескольких уровней Фильтрация по логическим условиям и выражениям Какие методы применимы в каких обстоятельствах Предположения для простоты: входной фрейм данных …

7
Преобразовать имена строк в первый столбец
У меня есть фрейм данных, как это: df VALUE ABS_CALL DETECTION P-VALUE 1007_s_at "957.729231881542" "P" "0.00486279317241156" 1053_at "320.632701283368" "P" "0.0313356324173416" 117_at "429.842323161046" "P" "0.0170004527476119" 121_at "2395.7364289242" "P" "0.0114473584876183" 1255_g_at "116.493632746934" "A" "0.39799368200131" 1294_at "739.927122116896" "A" "0.0668649772942343" Я хочу преобразовать имена строк в первый столбец. В настоящее время я использую что-то …
147 r  dataframe  col  rowname 


5
Как разбить данные на 3 набора (тренировка, проверка и тестирование)?
У меня есть датафрейм pandas, и я хочу разделить его на 3 отдельных набора. Я знаю , что с помощью train_test_split из sklearn.cross_validation, можно разделить данные в двух сетах (поезд и тест). Тем не менее, я не смог найти никакого решения о разделении данных на три набора. Желательно, чтобы у …

7
Как найти, какие столбцы содержат любое значение NaN в кадре данных Pandas
Дан кадр данных панд, содержащий возможные значения NaN, разбросанные здесь и там: Вопрос: Как определить, какие столбцы содержат значения NaN? В частности, могу ли я получить список имен столбцов, содержащих NaN?
144 python  pandas  dataframe  nan 

8
Как выбрать первый ряд каждой группы?
У меня есть DataFrame, сгенерированный следующим образом: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) Результаты выглядят так: +----+--------+----------+ |Hour|Category|TotalValue| +----+--------+----------+ | 0| cat26| 30.9| | 0| cat13| 22.1| | 0| cat95| 19.6| | 0| cat105| 1.3| | 1| cat67| 28.5| | 1| cat4| 26.8| | 1| cat13| 12.6| | 1| …

8
Переименовать Pandas DataFrame Index
У меня есть CSV-файл без заголовка с индексом DateTime. Я хочу переименовать индекс и имя столбца, но с помощью df.rename () переименовывается только имя столбца. Ошибка? Я на версии 0.12.0 In [2]: df = pd.read_csv(r'D:\Data\DataTimeSeries_csv//seriesSM.csv', header=None, parse_dates=[[0]], index_col=[0] ) In [3]: df.head() Out[3]: 1 0 2002-06-18 0.112000 2002-06-22 0.190333 2002-06-26 …
142 python  pandas  dataframe 


7
Найти столбец, имя которого содержит определенную строку
У меня есть фрейм данных с именами столбцов, и я хочу найти тот, который содержит определенную строку, но не совсем соответствует ей. Я ищу 'spike'в именах столбцов нравятся 'spike-2', 'hey spike', 'spiked-in'( 'spike'часть всегда непрерывна). Я хочу, чтобы имя столбца возвращалось в виде строки или переменной, поэтому я обращусь к …

6
масштабирование столбцов в пандах с помощью sklearn
У меня есть фреймворк pandas со столбцами смешанного типа, и я хотел бы применить min_max_scaler sklearn к некоторым столбцам. В идеале я хотел бы выполнить эти преобразования на месте, но еще не придумал, как это сделать. Я написал следующий код, который работает: import pandas as pd import numpy as np …


3
Как сохранить data.frame в R?
Я создал data.frame в R, который не очень большой, но его сборка занимает довольно много времени. Я хотел бы сохранить его как файл, который я могу, чем снова открыть в R?
137 r  dataframe 

2
Как добавить постоянный столбец в DataFrame Spark?
Я хочу добавить столбец в DataFrameс произвольным значением (то же самое для каждой строки). Я получаю ошибку, когда использую withColumnследующее: dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) <ipython-input-50-a6d0257ca2be> in <module>() 1 dt = (messages 2 .select(messages.fromuserid, messages.messagetype, floor(messages.datetime/(1000*60*5)).alias("dt"))) ----> 3 dt.withColumn('new_column', 10).head(5) /Users/evanzamir/spark-1.4.1/python/pyspark/sql/dataframe.pyc in withColumn(self, colName, col) 1166 …

5
Фреймворк Pandas получает первую строку каждой группы
У меня есть DataFrameтакие панды, как следующие. df = pd.DataFrame({'id' : [1,1,1,2,2,3,3,3,3,4,4,5,6,6,6,7,7], 'value' : ["first","second","second","first", "second","first","third","fourth", "fifth","second","fifth","first", "first","second","third","fourth","fifth"]}) Я хочу сгруппировать это по ["id", "value"] и получить первую строку каждой группы. id value 0 1 first 1 1 second 2 1 second 3 2 first 4 2 second 5 3 …
137 python  pandas  dataframe 

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.