программирование pandas

4

Рассчитать процент схожих значений в панде

У меня есть один dataframe df, с двумя столбцами: Script (с текстом) и Speaker Script Speaker aze Speaker 1 art Speaker 2 ghb Speaker 3 jka Speaker 1 tyc Speaker 1 avv Speaker 2 bhj Speaker 1 И у меня есть следующий список: L = ['a','b','c'] Со следующим кодом, df …

14 python python-3.x pandas dataframe

2

Определите, какие столбцы даты и времени

У меня огромный массив данных со многими столбцами, многие из которых имеют тип datetime.datetime. Проблема в том, что многие из них также имеют смешанные типы, в том числе, например, datetime.datetimeзначения и Noneзначения (и, возможно, другие недопустимые значения): 0 2017-07-06 00:00:00 1 2018-02-27 21:30:05 2 2017-04-12 00:00:00 3 2017-05-21 22:05:00 4 …

14 python pandas

3

Почему назначение с [:] по сравнению с iloc [:] дает разные результаты в пандах?

Я так запутался с различными методами индексации, используемыми ilocв пандах. Допустим, я пытаюсь преобразовать 1-й Dataframe в 2-й Dataframe. Сначала у меня есть следующий 1-й Dataframe a_array = [1,2,3,4,5,6,7,8] a_df = pd.DataFrame(a_array).T И я собираюсь преобразовать это в 2-й Dataframe с размером 2x4. Я начну с установки 2-го кадра данных …

13 python pandas dataframe

1

Функция to_excel панд генерирует неожиданную ошибку TypeError

Я создал словарь панд данных: d[k] = pd.DataFrame(data=data[i]) Так что я предполагаю, что d[k]это правильный пандас. затем for k in d.keys(): d[k].to_excel (file_name) Тогда у меня есть ошибка: TypeError: got invalid input value of type <class 'xml.etree.ElementTree.Element'>, expected string or Element Я использую Python 3.7, панды 0.25.3. Обновление : если …

13 python pandas export-to-excel

3

Медленные панды DataFrame MultiIndex Reindex

У меня есть панды DataFrame в форме: id start_time sequence_no value 0 71 2018-10-17 20:12:43+00:00 114428 3 1 71 2018-10-17 20:12:43+00:00 114429 3 2 71 2018-10-17 20:12:43+00:00 114431 79 3 71 2019-11-06 00:51:14+00:00 216009 100 4 71 2019-11-06 00:51:14+00:00 216011 150 5 71 2019-11-06 00:51:14+00:00 216013 180 6 92 2019-12-01 …

13 python pandas numpy dataframe

2

Генерация отфильтрованных бинарных декартовых продуктов

Постановка задачи Я ищу эффективный способ генерирования полных двоичных декартовых продуктов (таблиц со всеми комбинациями True и False с определенным числом столбцов), отфильтрованных по определенным исключительным условиям. Например, для трех столбцов / битов n=3мы получили бы полную таблицу df_combs = pd.DataFrame(itertools.product(*([[True, False]] * n))) 0 1 2 0 True True …

12 python pandas dataframe

1

pandasUDF и пиарроу 0.15.0

Недавно я начал получать кучу ошибок на ряде pysparkзаданий, работающих на кластерах EMR. Ошибки java.lang.IllegalArgumentException at java.nio.ByteBuffer.allocate(ByteBuffer.java:334) at org.apache.arrow.vector.ipc.message.MessageSerializer.readMessage(MessageSerializer.java:543) at org.apache.arrow.vector.ipc.message.MessageChannelReader.readNext(MessageChannelReader.java:58) at org.apache.arrow.vector.ipc.ArrowStreamReader.readSchema(ArrowStreamReader.java:132) at org.apache.arrow.vector.ipc.ArrowReader.initialize(ArrowReader.java:181) at org.apache.arrow.vector.ipc.ArrowReader.ensureInitialized(ArrowReader.java:172) at org.apache.arrow.vector.ipc.ArrowReader.getVectorSchemaRoot(ArrowReader.java:65) at org.apache.spark.sql.execution.python.ArrowPythonRunner$$anon$1.read(ArrowPythonRunner.scala:162) at org.apache.spark.sql.execution.python.ArrowPythonRunner$$anon$1.read(ArrowPythonRunner.scala:122) at org.apache.spark.api.python.BasePythonRunner$ReaderIterator.hasNext(PythonRunner.scala:406) at org.apache.spark.InterruptibleIterator.hasNext(InterruptibleIterator.scala:37) at org.apache.spark.sql.execution.python.ArrowEvalPythonExec$$anon$2.<init>(ArrowEvalPythonExec.scala:98) at org.apache.spark.sql.execution.python.ArrowEvalPythonExec.evaluate(ArrowEvalPythonExec.scala:96) at org.apache.spark.sql.execution.python.EvalPythonExec$$anonfun$doExecute$1.apply(EvalPythonExec.scala:127)... Все они, кажется, происходят в applyфункциях серии …

12 pandas apache-spark pyspark pyarrow

5

Добавить идентификатор, найденный в списке, в новый столбец в панде.

Скажем, у меня есть следующий фрейм данных (столбец целых чисел и столбец со списком целых чисел) ... ID Found_IDs 0 12345 [15443, 15533, 3433] 1 15533 [2234, 16608, 12002, 7654] 2 6789 [43322, 876544, 36789] А также отдельный список идентификаторов ... bad_ids = [15533, 876544, 36789, 11111] Учитывая это, и …

11 python python-3.x pandas dataframe

9

создать матрицу NxN из одной колонны панд

у меня есть dataframe с каждой строкой, имеющей значение списка. id list_of_value 0 ['a','b','c'] 1 ['d','b','c'] 2 ['a','b','c'] 3 ['a','b','c'] я должен сделать подсчет очков с одной строкой и против всех других строк Например: Step 1: Take value of id 0: ['a','b','c'], Step 2: find the intersection between id 0 …

11 python pandas numpy

1

Как удалить нулевые значения из динамического цикла, сгенерированного из Python?

У меня есть фрейм данных, как это: ORDER_NO 2401 2504 2600 2020020 2019-12-04 2019-12-10 2019-12-12 2020024 2019-12-25 NaN 2019-12-20 2020034 NaN NaN 2019-12-20 2020020 2019-12-12 2019-12-15 2019-12-18 Я создаю XML из вышеупомянутого фрейма данных. Я хочу удалить нулевое значение в XML. Мой код должен удалить этот конкретный столбец и значение …

11 python-3.x pandas loops dataframe itertools

3

Панды перезаписывают значения в нескольких столбцах одновременно, основываясь на условии значений в одном столбце

У меня есть такой DataFrame: df = pd.DataFrame(data={ 'col0': [11, 22,1, 5] 'col1': ['aa:a:aaa', 'a:a', 'a', 'a:aa:a:aaa'], 'col2': ["foo", "foo", "foobar", "bar"], 'col3': [True, False, True, False], 'col4': ['elo', 'foo', 'bar', 'dupa']}) Я хочу получить длину списка после разделения на ":" в столбце col1, затем я хочу перезаписать значения, если …

11 python pandas apply

2

Как я могу разделить столбцы с помощью регулярных выражений, чтобы переместить конечные CAPS в отдельный столбец?

Я пытаюсь разделить столбец с помощью регулярных выражений, но, похоже, не могу правильно получить разделение. Я пытаюсь взять все конечные буквы и перенести их в отдельный столбец. Таким образом, я получаю все CAPS, которые являются 2-4 CAPS подряд. Тем не менее, это только оставив'Name' столбец, пока 'Team'столбец пуст. Вот мой …

11 python regex pandas

7

Считать файл повторяющихся пар «ключ = значение» в DataFrame

У меня есть текстовый файл с данными в этом формате. Первые 3 строки повторяются снова и снова. name=1 grade=A class=B name=2 grade=D class=A Я хотел бы вывести данные в виде таблицы, например: name | grade | class 1 | A | B 2 | D | A Я изо всех …

11 python pandas dataframe

2

Выявление корневых родителей и всех их детей на деревьях

У меня есть пандас dataframe как таковой: parent child parent_level child_level A B 0 1 B C 1 2 B D 1 2 X Y 0 2 X D 0 2 Y Z 2 3 Это представляет дерево, которое выглядит так A X / / \ B / \ /\ …

11 python pandas

4

Фильтрация DataFrame по группам, где количество элементов отличается от 1

Я работаю с DataFrame, имеющим следующую структуру: import pandas as pd df = pd.DataFrame({'group':[1,1,1,2,2,2,2,3,3,3], 'brand':['A','B','X','C','D','X','X','E','F','X']}) print(df) group brand 0 1 A 1 1 B 2 1 X 3 2 C 4 2 D 5 2 X 6 2 X 7 3 E 8 3 F 9 3 X Моя цель …

10 python pandas dataframe

Вопросы с тегом «pandas»