Вопросы с тегом «dataframe»

Фрейм данных является табличной структурой данных. Обычно он содержит данные, где строки - это наблюдения, а столбцы - переменные различных типов. В то время как «фрейм данных» или «фрейм данных» - это термин, используемый для этой концепции в нескольких языках (R, Apache Spark, deedle, Maple, библиотека pandas в Python и библиотека DataFrames в Julia), «таблица» - это термин, используемый в MATLAB и SQL.

6
Панды: Как разделить текст в столбце на несколько строк?
Я работаю с большим CSV-файлом, и рядом с последним столбцом есть строка текста, которую я хочу разделить по определенному разделителю. Мне было интересно, если есть простой способ сделать это с помощью панд или питона? CustNum CustomerName ItemQty Item Seatblocks ItemExt 32363 McCartney, Paul 3 F04 2:218:10:4,6 60 31316 Lennon, John …
135 python  pandas  dataframe 


4
Python pandas: заполняйте фрейм данных строка за строкой
Простая задача добавления строки к pandas.DataFrameобъекту кажется сложной. По этому поводу есть 3 вопроса о stackoverflow, ни один из которых не дает рабочего ответа. Вот что я пытаюсь сделать. У меня есть DataFrame, форма которого я уже знаю, а также имена строк и столбцов. >>> df = pandas.DataFrame(columns=['a','b','c','d'], index=['x','y','z']) >>> …
133 python  dataframe  row  pandas 

5
Pandas DataFrame: заменить все значения в столбце в зависимости от условия
У меня есть простой DataFrame, подобный следующему: Я хочу выбрать все значения в столбце «Первый сезон» и заменить те, которые превышают 1990 год, на 1. В этом примере только у Baltimore Ravens значение 1996 года будет заменено на 1 (оставив остальные данные без изменений). Я использовал следующее: df.loc[(df['First Season'] > …
132 python  pandas  dataframe 

8
Пропускать строки, содержащие определенный столбец NA
Я хочу знать, как опускать NAзначения во фрейме данных, но только в некоторых столбцах, которые меня интересуют. Например, DF <- data.frame(x = c(1, 2, 3), y = c(0, 10, NA), z=c(NA, 33, 22)) но я хочу опустить только те данные, где yесть NA, поэтому результат должен быть x y z …
131 r  dataframe  na 

2
Назначьте несколько столбцов, используя: = в data.table, по группе
Как лучше всего назначить несколько столбцов с помощью data.table? Например: f <- function(x) {c("hi", "hello")} x <- data.table(id = 1:10) Я бы хотел сделать что-то подобное (конечно, это неверный синтаксис): x[ , (col1, col2) := f(), by = "id"] И чтобы расширить это, у меня может быть много столбцов с …

4
Объедините список фреймов данных pandas вместе
У меня есть список фреймов данных Pandas, которые я хотел бы объединить в один фрейм данных Pandas. Я использую Python 2.7.10 и Pandas 0.16.2 Я создал список фреймов данных из: import pandas as pd dfs = [] sqlall = "select * from mytable" for chunk in pd.read_sql_query(sqlall , cnxn, chunksize=10000): …


5
R - объединить два фрейма данных?
Учитывая два фрейма данных aи b: > a a b c 1 -0.2246894 -1.48167912 -1.65099363 2 0.5559320 -0.87898575 -0.15634590 3 1.8469466 -0.01487524 -0.53098215 4 -0.6875051 0.23880967 0.01824621 5 -0.6735163 0.75485292 0.44154092 > b a c 1 0.4287284 -0.3295925 2 0.5201492 0.3341251 3 -2.6355570 1.7916780 4 -1.3645337 1.3642276 5 -0.4954542 -0.6660001 …

10
Как можно добавить строку во фрейм данных в R?
Как в R добавить новую строку во фрейм данных после того, как фрейм данных уже инициализирован? Пока у меня есть это: df <- data.frame("hi", "bye") names(df) <- c("hello", "goodbye") #I am trying to add "hola" and "ciao" as a new row de <- data.frame("hola", "ciao") merge(df, de) # Adds to …
129 r  dataframe 

5
Как определить разбиение DataFrame?
Я начал использовать Spark SQL и DataFrames в Spark 1.4.0. Я хочу определить пользовательский разделитель в DataFrames в Scala, но не знаю, как это сделать. Одна из таблиц данных, с которыми я работаю, содержит список транзакций по учетной записи, силимар к следующему примеру. Account Date Type Amount 1001 2014-04-01 Purchase …

9
Как добавить новый столбец в фрейм данных Spark (используя PySpark)?
У меня есть Spark DataFrame (с использованием PySpark 1.5.1), и я хотел бы добавить новый столбец. Я безуспешно пробовал следующее: type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, columns=['new_col']) spark_new_col = sqlContext.createDataFrame(new_col) my_df_spark.withColumn("hours", spark_new_col["new_col"]) Также возникла ошибка при использовании этого: my_df_spark.withColumn("hours", sc.parallelize(randomed_hours)) Итак, …

3
Несколько агрегаций одного и того же столбца с использованием pandas GroupBy.agg ()
Есть ли встроенный в pandas способ применения двух разных агрегатных функций f1, f2к одному и тому же столбцу df["returns"]без необходимости вызывать agg()несколько раз? Пример фрейма данных: import pandas as pd import datetime as dt pd.np.random.seed(0) df = pd.DataFrame({ "date" : [dt.date(2012, x, 1) for x in range(1, 11)], "returns" : …

5
Добавить недостающие даты в фреймворк pandas
Мои данные могут иметь несколько событий на заданную дату или НИКАКИХ событий на дату. Я беру эти события, подсчитываю по дате и рисую их. Однако, когда я их рисую, две мои серии не всегда совпадают. idx = pd.date_range(df['simpleDate'].min(), df['simpleDate'].max()) s = df.groupby(['simpleDate']).size() В приведенном выше коде idx становится диапазоном, скажем, …
128 python  date  plot  pandas  dataframe 

4
datetime dtypes в пандах read_csv
Я читаю файл csv с несколькими столбцами datetime. Мне нужно установить типы данных при чтении в файле, но проблема с датами. Например: headers = ['col1', 'col2', 'col3', 'col4'] dtypes = ['datetime', 'datetime', 'str', 'float'] pd.read_csv(file, sep='\t', header=None, names=headers, dtype=dtypes) При запуске выдает ошибку: TypeError: тип данных "datetime" не распознан Преобразование …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.