Вопросы с тегом «pandas»

Pandas - это библиотека Python для манипулирования и анализа данных, например, фреймов данных, многомерных временных рядов и наборов данных поперечного сечения, обычно встречающихся в статистике, результатах экспериментальной науки, эконометрике или финансах. Pandas - одна из основных библиотек данных в Python.


2
Определите, какие столбцы даты и времени
У меня огромный массив данных со многими столбцами, многие из которых имеют тип datetime.datetime. Проблема в том, что многие из них также имеют смешанные типы, в том числе, например, datetime.datetimeзначения и Noneзначения (и, возможно, другие недопустимые значения): 0 2017-07-06 00:00:00 1 2018-02-27 21:30:05 2 2017-04-12 00:00:00 3 2017-05-21 22:05:00 4 …
14 python  pandas 

3
Почему назначение с [:] по сравнению с iloc [:] дает разные результаты в пандах?
Я так запутался с различными методами индексации, используемыми ilocв пандах. Допустим, я пытаюсь преобразовать 1-й Dataframe в 2-й Dataframe. Сначала у меня есть следующий 1-й Dataframe a_array = [1,2,3,4,5,6,7,8] a_df = pd.DataFrame(a_array).T И я собираюсь преобразовать это в 2-й Dataframe с размером 2x4. Я начну с установки 2-го кадра данных …

1
Функция to_excel панд генерирует неожиданную ошибку TypeError
Я создал словарь панд данных: d[k] = pd.DataFrame(data=data[i]) Так что я предполагаю, что d[k]это правильный пандас. затем for k in d.keys(): d[k].to_excel (file_name) Тогда у меня есть ошибка: TypeError: got invalid input value of type <class 'xml.etree.ElementTree.Element'>, expected string or Element Я использую Python 3.7, панды 0.25.3. Обновление : если …

3
Медленные панды DataFrame MultiIndex Reindex
У меня есть панды DataFrame в форме: id start_time sequence_no value 0 71 2018-10-17 20:12:43+00:00 114428 3 1 71 2018-10-17 20:12:43+00:00 114429 3 2 71 2018-10-17 20:12:43+00:00 114431 79 3 71 2019-11-06 00:51:14+00:00 216009 100 4 71 2019-11-06 00:51:14+00:00 216011 150 5 71 2019-11-06 00:51:14+00:00 216013 180 6 92 2019-12-01 …

2
Генерация отфильтрованных бинарных декартовых продуктов
Постановка задачи Я ищу эффективный способ генерирования полных двоичных декартовых продуктов (таблиц со всеми комбинациями True и False с определенным числом столбцов), отфильтрованных по определенным исключительным условиям. Например, для трех столбцов / битов n=3мы получили бы полную таблицу df_combs = pd.DataFrame(itertools.product(*([[True, False]] * n))) 0 1 2 0 True True …

1
pandasUDF и пиарроу 0.15.0
Недавно я начал получать кучу ошибок на ряде pysparkзаданий, работающих на кластерах EMR. Ошибки java.lang.IllegalArgumentException at java.nio.ByteBuffer.allocate(ByteBuffer.java:334) at org.apache.arrow.vector.ipc.message.MessageSerializer.readMessage(MessageSerializer.java:543) at org.apache.arrow.vector.ipc.message.MessageChannelReader.readNext(MessageChannelReader.java:58) at org.apache.arrow.vector.ipc.ArrowStreamReader.readSchema(ArrowStreamReader.java:132) at org.apache.arrow.vector.ipc.ArrowReader.initialize(ArrowReader.java:181) at org.apache.arrow.vector.ipc.ArrowReader.ensureInitialized(ArrowReader.java:172) at org.apache.arrow.vector.ipc.ArrowReader.getVectorSchemaRoot(ArrowReader.java:65) at org.apache.spark.sql.execution.python.ArrowPythonRunner$$anon$1.read(ArrowPythonRunner.scala:162) at org.apache.spark.sql.execution.python.ArrowPythonRunner$$anon$1.read(ArrowPythonRunner.scala:122) at org.apache.spark.api.python.BasePythonRunner$ReaderIterator.hasNext(PythonRunner.scala:406) at org.apache.spark.InterruptibleIterator.hasNext(InterruptibleIterator.scala:37) at org.apache.spark.sql.execution.python.ArrowEvalPythonExec$$anon$2.<init>(ArrowEvalPythonExec.scala:98) at org.apache.spark.sql.execution.python.ArrowEvalPythonExec.evaluate(ArrowEvalPythonExec.scala:96) at org.apache.spark.sql.execution.python.EvalPythonExec$$anonfun$doExecute$1.apply(EvalPythonExec.scala:127)... Все они, кажется, происходят в applyфункциях серии …

5
Добавить идентификатор, найденный в списке, в новый столбец в панде.
Скажем, у меня есть следующий фрейм данных (столбец целых чисел и столбец со списком целых чисел) ... ID Found_IDs 0 12345 [15443, 15533, 3433] 1 15533 [2234, 16608, 12002, 7654] 2 6789 [43322, 876544, 36789] А также отдельный список идентификаторов ... bad_ids = [15533, 876544, 36789, 11111] Учитывая это, и …

9
создать матрицу NxN из одной колонны панд
у меня есть dataframe с каждой строкой, имеющей значение списка. id list_of_value 0 ['a','b','c'] 1 ['d','b','c'] 2 ['a','b','c'] 3 ['a','b','c'] я должен сделать подсчет очков с одной строкой и против всех других строк Например: Step 1: Take value of id 0: ['a','b','c'], Step 2: find the intersection between id 0 …
11 python  pandas  numpy 

1
Как удалить нулевые значения из динамического цикла, сгенерированного из Python?
У меня есть фрейм данных, как это: ORDER_NO 2401 2504 2600 2020020 2019-12-04 2019-12-10 2019-12-12 2020024 2019-12-25 NaN 2019-12-20 2020034 NaN NaN 2019-12-20 2020020 2019-12-12 2019-12-15 2019-12-18 Я создаю XML из вышеупомянутого фрейма данных. Я хочу удалить нулевое значение в XML. Мой код должен удалить этот конкретный столбец и значение …

3
Панды перезаписывают значения в нескольких столбцах одновременно, основываясь на условии значений в одном столбце
У меня есть такой DataFrame: df = pd.DataFrame(data={ 'col0': [11, 22,1, 5] 'col1': ['aa:a:aaa', 'a:a', 'a', 'a:aa:a:aaa'], 'col2': ["foo", "foo", "foobar", "bar"], 'col3': [True, False, True, False], 'col4': ['elo', 'foo', 'bar', 'dupa']}) Я хочу получить длину списка после разделения на ":" в столбце col1, затем я хочу перезаписать значения, если …
11 python  pandas  apply 

2
Как я могу разделить столбцы с помощью регулярных выражений, чтобы переместить конечные CAPS в отдельный столбец?
Я пытаюсь разделить столбец с помощью регулярных выражений, но, похоже, не могу правильно получить разделение. Я пытаюсь взять все конечные буквы и перенести их в отдельный столбец. Таким образом, я получаю все CAPS, которые являются 2-4 CAPS подряд. Тем не менее, это только оставив'Name' столбец, пока 'Team'столбец пуст. Вот мой …
11 python  regex  pandas 

7
Считать файл повторяющихся пар «ключ = значение» в DataFrame
У меня есть текстовый файл с данными в этом формате. Первые 3 строки повторяются снова и снова. name=1 grade=A class=B name=2 grade=D class=A Я хотел бы вывести данные в виде таблицы, например: name | grade | class 1 | A | B 2 | D | A Я изо всех …



Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.