программирование dataframe

6

Панды: Как разделить текст в столбце на несколько строк?

Я работаю с большим CSV-файлом, и рядом с последним столбцом есть строка текста, которую я хочу разделить по определенному разделителю. Мне было интересно, если есть простой способ сделать это с помощью панд или питона? CustNum CustomerName ItemQty Item Seatblocks ItemExt 32363 McCartney, Paul 3 F04 2:218:10:4,6 60 31316 Lennon, John …

135 python pandas dataframe

8

панды уникальные значения несколько столбцов

df = pd.DataFrame({'Col1': ['Bob', 'Joe', 'Bill', 'Mary', 'Joe'], 'Col2': ['Joe', 'Steve', 'Bob', 'Bob', 'Steve'], 'Col3': np.random.random(5)}) Как лучше всего вернуть уникальные значения Col1 и Col2? Желаемый результат 'Bob', 'Joe', 'Bill', 'Mary', 'Steve'

134 python pandas dataframe unique

4

Python pandas: заполняйте фрейм данных строка за строкой

Простая задача добавления строки к pandas.DataFrameобъекту кажется сложной. По этому поводу есть 3 вопроса о stackoverflow, ни один из которых не дает рабочего ответа. Вот что я пытаюсь сделать. У меня есть DataFrame, форма которого я уже знаю, а также имена строк и столбцов. >>> df = pandas.DataFrame(columns=['a','b','c','d'], index=['x','y','z']) >>> …

133 python dataframe row pandas

5

Pandas DataFrame: заменить все значения в столбце в зависимости от условия

У меня есть простой DataFrame, подобный следующему: Я хочу выбрать все значения в столбце «Первый сезон» и заменить те, которые превышают 1990 год, на 1. В этом примере только у Baltimore Ravens значение 1996 года будет заменено на 1 (оставив остальные данные без изменений). Я использовал следующее: df.loc[(df['First Season'] > …

132 python pandas dataframe

8

Пропускать строки, содержащие определенный столбец NA

Я хочу знать, как опускать NAзначения во фрейме данных, но только в некоторых столбцах, которые меня интересуют. Например, DF <- data.frame(x = c(1, 2, 3), y = c(0, 10, NA), z=c(NA, 33, 22)) но я хочу опустить только те данные, где yесть NA, поэтому результат должен быть x y z …

131 r dataframe na

2

Назначьте несколько столбцов, используя: = в data.table, по группе

Как лучше всего назначить несколько столбцов с помощью data.table? Например: f <- function(x) {c("hi", "hello")} x <- data.table(id = 1:10) Я бы хотел сделать что-то подобное (конечно, это неверный синтаксис): x[ , (col1, col2) := f(), by = "id"] И чтобы расширить это, у меня может быть много столбцов с …

130 r dataframe data.table variable-assignment colon-equals

4

Объедините список фреймов данных pandas вместе

У меня есть список фреймов данных Pandas, которые я хотел бы объединить в один фрейм данных Pandas. Я использую Python 2.7.10 и Pandas 0.16.2 Я создал список фреймов данных из: import pandas as pd dfs = [] sqlall = "select * from mytable" for chunk in pd.read_sql_query(sqlall , cnxn, chunksize=10000): …

130 python pandas dataframe concat

9

Удалите ненужные части из строк в столбце

Я ищу эффективный способ удаления ненужных частей из строк в столбце DataFrame. Данные выглядят так: time result 1 09:00 +52A 2 10:00 +62B 3 11:00 +44a 4 12:00 +30b 5 13:00 -110a Мне нужно обрезать эти данные до: time result 1 09:00 52 2 10:00 62 3 11:00 44 4 …

129 python string pandas dataframe

5

R - объединить два фрейма данных?

Учитывая два фрейма данных aи b: > a a b c 1 -0.2246894 -1.48167912 -1.65099363 2 0.5559320 -0.87898575 -0.15634590 3 1.8469466 -0.01487524 -0.53098215 4 -0.6875051 0.23880967 0.01824621 5 -0.6735163 0.75485292 0.44154092 > b a c 1 0.4287284 -0.3295925 2 0.5201492 0.3341251 3 -2.6355570 1.7916780 4 -1.3645337 1.3642276 5 -0.4954542 -0.6660001 …

129 r dataframe concatenation

10

Как можно добавить строку во фрейм данных в R?

Как в R добавить новую строку во фрейм данных после того, как фрейм данных уже инициализирован? Пока у меня есть это: df <- data.frame("hi", "bye") names(df) <- c("hello", "goodbye") #I am trying to add "hola" and "ciao" as a new row de <- data.frame("hola", "ciao") merge(df, de) # Adds to …

129 r dataframe

5

Как определить разбиение DataFrame?

Я начал использовать Spark SQL и DataFrames в Spark 1.4.0. Я хочу определить пользовательский разделитель в DataFrames в Scala, но не знаю, как это сделать. Одна из таблиц данных, с которыми я работаю, содержит список транзакций по учетной записи, силимар к следующему примеру. Account Date Type Amount 1001 2014-04-01 Purchase …

129 scala apache-spark dataframe apache-spark-sql partitioning

9

Как добавить новый столбец в фрейм данных Spark (используя PySpark)?

У меня есть Spark DataFrame (с использованием PySpark 1.5.1), и я хотел бы добавить новый столбец. Я безуспешно пробовал следующее: type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, columns=['new_col']) spark_new_col = sqlContext.createDataFrame(new_col) my_df_spark.withColumn("hours", spark_new_col["new_col"]) Также возникла ошибка при использовании этого: my_df_spark.withColumn("hours", sc.parallelize(randomed_hours)) Итак, …

129 python apache-spark dataframe pyspark apache-spark-sql

3

Несколько агрегаций одного и того же столбца с использованием pandas GroupBy.agg ()

Есть ли встроенный в pandas способ применения двух разных агрегатных функций f1, f2к одному и тому же столбцу df["returns"]без необходимости вызывать agg()несколько раз? Пример фрейма данных: import pandas as pd import datetime as dt pd.np.random.seed(0) df = pd.DataFrame({ "date" : [dt.date(2012, x, 1) for x in range(1, 11)], "returns" : …

129 python pandas dataframe aggregate pandas-groupby

5

Добавить недостающие даты в фреймворк pandas

Мои данные могут иметь несколько событий на заданную дату или НИКАКИХ событий на дату. Я беру эти события, подсчитываю по дате и рисую их. Однако, когда я их рисую, две мои серии не всегда совпадают. idx = pd.date_range(df['simpleDate'].min(), df['simpleDate'].max()) s = df.groupby(['simpleDate']).size() В приведенном выше коде idx становится диапазоном, скажем, …

128 python date plot pandas dataframe

4

datetime dtypes в пандах read_csv

Я читаю файл csv с несколькими столбцами datetime. Мне нужно установить типы данных при чтении в файле, но проблема с датами. Например: headers = ['col1', 'col2', 'col3', 'col4'] dtypes = ['datetime', 'datetime', 'str', 'float'] pd.read_csv(file, sep='\t', header=None, names=headers, dtype=dtypes) При запуске выдает ошибку: TypeError: тип данных "datetime" не распознан Преобразование …

128 python csv datetime pandas dataframe

Вопросы с тегом «dataframe»