Вопросы с тегом «dataframe»

Фрейм данных является табличной структурой данных. Обычно он содержит данные, где строки - это наблюдения, а столбцы - переменные различных типов. В то время как «фрейм данных» или «фрейм данных» - это термин, используемый для этой концепции в нескольких языках (R, Apache Spark, deedle, Maple, библиотека pandas в Python и библиотека DataFrames в Julia), «таблица» - это термин, используемый в MATLAB и SQL.


6
Как объединить серию и DataFrame
Если вы пришли сюда в поисках информации о том, как объединить a DataFrameи Seriesиндекс , пожалуйста, посмотрите этот ответ . Первоначальное намерение OP состояло в том, чтобы спросить, как назначить элементы серии в качестве столбцов другому DataFrame . Если вам интересно узнать ответ на этот вопрос, посмотрите на принятый ответ …

10
Spark Dataframe различает столбцы с повторяющимся именем
Итак, как я знаю в Spark Dataframe, несколько столбцов могут иметь то же имя, что и на снимке ниже: [ Row(a=107831, f=SparseVector(5, {0: 0.0, 1: 0.0, 2: 0.0, 3: 0.0, 4: 0.0}), a=107831, f=SparseVector(5, {0: 0.0, 1: 0.0, 2: 0.0, 3: 0.0, 4: 0.0})), Row(a=107831, f=SparseVector(5, {0: 0.0, 1: 0.0, …

10
Как заменить значения NA в таблице для выбранных столбцов
Есть много сообщений о замене ценностей NA. Я знаю, что можно заменить NA в следующей таблице / кадре следующим: x[is.na(x)]<-0 Но что, если я хочу ограничить его только определенными столбцами? Я покажу вам пример. Во-первых, давайте начнем с набора данных. set.seed(1234) x <- data.frame(a=sample(c(1,2,NA), 10, replace=T), b=sample(c(1,2,NA), 10, replace=T), c=sample(c(1:5,NA), …

13
Элегантный способ сообщить об отсутствующих значениях в data.frame
Вот небольшой фрагмент кода, который я написал для сообщения о переменных с отсутствующими значениями из фрейма данных. Я пытаюсь придумать более элегантный способ сделать это, возможно, вернув data.frame, но я застрял: for (Var in names(airquality)) { missing <- sum(is.na(airquality[,Var])) if (missing > 0) { print(c(Var,missing)) } } Изменить: я имею …

9
Заменить недопустимые значения на None в Pandas DataFrame
Есть ли способ заменить значения Noneв Pandas в Python? Вы можете использовать df.replace('pre', 'post')и можете заменить одно значение другим, но этого нельзя сделать, если вы хотите заменить на Noneзначение, которое при попытке получить странный результат. Итак, вот пример: df = DataFrame(['-',3,2,5,1,-5,-1,'-',9]) df.replace('-', 0) который возвращает успешный результат. Но, df.replace('-', None) …

6
Удаление / обрезка всех строк фрейма данных
Очистив значения фрейма данных с несколькими типами в python / pandas, я хочу обрезать строки. Сейчас я делаю это по двум инструкциям: import pandas as pd df = pd.DataFrame([[' a ', 10], [' c ', 5]]) df.replace('^\s+', '', regex=True, inplace=True) #front df.replace('\s+$', '', regex=True, inplace=True) #end df.values Это довольно медленно, …

10
Как распечатать (на бумаге) красиво отформатированный фрейм данных
Я хотел бы напечатать красиво отформатированные фреймы данных на бумаге, в идеале из сценария. (Я пытаюсь собрать данные с помощью инструмента и автоматически обработать и распечатать их с помощью сценария R). Прямо сейчас я могу записать фрейм данных в текстовый файл, используя write.table(), но здесь есть две проблемы: Полученный текстовый …


7
Добавить новый столбец в фрейм данных на основе словаря
У меня есть датафрейм и словарь. Мне нужно добавить новый столбец в фрейм данных и рассчитать его значения на основе словаря. Машинное обучение, добавление новой функции на основе некоторой таблицы: score = {(1, 45, 1, 1) : 4, (0, 1, 2, 1) : 5} df = pd.DataFrame(data = { 'gender' …

5
Unstack и возвращаемое значение считается для каждой переменной?
У меня есть фрейм данных, в котором записаны ответы людей, выбравших языки программирования 19717 года на вопросы с несколькими вариантами ответов. В первом столбце, конечно, указывается пол респондента, а в остальных - выбор, который они выбрали. И, следовательно, если я выберу Python, мой ответ будет записан в столбце Python, а …


3
Получите ближайшее расстояние с двумя геоданных в пандах
Вот мой первый геодатфрейм: !pip install geopandas import pandas as pd import geopandas city1 = [{'City':"Buenos Aires","Country":"Argentina","Latitude":-34.58,"Longitude":-58.66}, {'City':"Brasilia","Country":"Brazil","Latitude":-15.78 ,"Longitude":-70.66}, {'City':"Santiago","Country":"Chile ","Latitude":-33.45 ,"Longitude":-70.66 }] city2 = [{'City':"Bogota","Country":"Colombia ","Latitude":4.60 ,"Longitude":-74.08}, {'City':"Caracas","Country":"Venezuela","Latitude":10.48 ,"Longitude":-66.86}] city1df = pd.DataFrame(city1) city2df = pd.DataFrame(city2) gcity1df = geopandas.GeoDataFrame( city1df, geometry=geopandas.points_from_xy(city1df.Longitude, city1df.Latitude)) gcity2df = geopandas.GeoDataFrame( city2df, geometry=geopandas.points_from_xy(city2df.Longitude, city2df.Latitude)) City1 City …


3
Почему назначение с [:] по сравнению с iloc [:] дает разные результаты в пандах?
Я так запутался с различными методами индексации, используемыми ilocв пандах. Допустим, я пытаюсь преобразовать 1-й Dataframe в 2-й Dataframe. Сначала у меня есть следующий 1-й Dataframe a_array = [1,2,3,4,5,6,7,8] a_df = pd.DataFrame(a_array).T И я собираюсь преобразовать это в 2-й Dataframe с размером 2x4. Я начну с установки 2-го кадра данных …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.