Уровни коэффициента отбрасывания в заданном кадре данных

543

У меня есть фрейм данных, содержащий factor. Когда я создаю подмножество этого subsetфрейма данных, используя или другую функцию индексации, создается новый фрейм данных. Однако factorпеременная сохраняет все свои исходные уровни, даже если / если они не существуют в новом кадре данных.

Это вызывает проблемы при выполнении граненых графиков или при использовании функций, основанных на факторных уровнях.

Какой самый короткий способ удалить уровни из фактора в новом фрейме данных?

Вот пример:

df <- data.frame(letters=letters[1:5],
                    numbers=seq(1:5))

levels(df$letters)
## [1] "a" "b" "c" "d" "e"

subdf <- subset(df, numbers <= 3)
##   letters numbers
## 1       a       1
## 2       b       2
## 3       c       3    

# all levels are still there!
levels(subdf$letters)
## [1] "a" "b" "c" "d" "e"

r dataframe r-factor r-faq

— medriscoll
источник

420

Все, что вам нужно сделать, это снова применить factor () к вашей переменной после поднабора:

> subdf$letters
[1] a b c
Levels: a b c d e
subdf$letters <- factor(subdf$letters)
> subdf$letters
[1] a b c
Levels: a b c

РЕДАКТИРОВАТЬ

Из примера страницы фактора:

factor(ff)      # drops the levels that do not occur

Для удаления уровней из всех столбцов фактора в кадре данных вы можете использовать:

subdf <- subset(df, numbers <= 3)
subdf[] <- lapply(subdf, function(x) if(is.factor(x)) factor(x) else x)

— hatmatrix
источник

22

Это хорошо для одноразового использования, но в data.frame с большим количеством столбцов вы можете сделать это для каждого столбца, который является фактором ... что приводит к необходимости использования такой функции, как drop.levels () из гдата.

— Дирк Эддельбюттель

6

Я вижу ... но с точки зрения пользователя это быстро написать что-то вроде subdf [] <- lapply (subdf, function (x) if (is.factor (x)) factor (x) else x) ... Is drop.levels () намного эффективнее в вычислительном отношении или лучше с большими наборами данных? (Полагаю, что для огромного фрейма данных нужно было бы переписать строку выше в цикле for.)

— hatmatrix

1

Спасибо Стивену и Дирку - я даю этому большие пальцы для объяснения одного фактора, но, надеюсь, люди прочитают эти комментарии для ваших предложений по очистке целого ряда данных факторов.

— Medriscoll

9

В качестве побочного эффекта функция преобразует фрейм данных в список, поэтому mydf <- droplevels(mydf)предпочтительным является решение, предложенное Романом Луштриком и Томми О'Деллом ниже.

— Йохан

1

Кроме того : этот метод делает сохранение порядка переменного.

— Webelo

492

Начиная с версии R 2.12, есть droplevels()функция.

levels(droplevels(subdf$letters))

— Роман Луштрик
источник

7

Преимущество этого метода перед использованием factor()заключается в том, что нет необходимости изменять исходный кадр данных или создавать новый постоянный кадр данных. Я могу обернуть droplevelsвокруг установленного кадра данных и использовать его в качестве аргумента данных для функции решетки, и группы будут обрабатываться правильно.

— Марс

Я заметил, что если у меня есть уровень АН в моем факторе (настоящий уровень АН), он падает на пониженные уровни, даже если присутствуют АН.

— Мип

46

Если вы не хотите такого поведения, не используйте факторы, используйте вместо них векторы символов. Я думаю, что это имеет больше смысла, чем исправление вещей впоследствии. Попробуйте выполнить следующее перед загрузкой данных с помощью read.tableили read.csv:

options(stringsAsFactors = FALSE)

Недостатком является то, что вы ограничены в алфавитном порядке. (изменить порядок - ваш друг по участкам)

— Hadley
источник

38

Это известная проблема, и один из возможного средства предусмотрено drop.levels()в GData пакета , где ваш пример становится

> drop.levels(subdf)
  letters numbers
1       a       1
2       b       2
3       c       3
> levels(drop.levels(subdf)$letters)
[1] "a" "b" "c"

Также есть dropUnusedLevelsфункция в пакете Hmisc . Однако он работает только путем изменения оператора подмножества [и здесь неприменим.

Как следствие, прямой подход для каждого столбца прост as.factor(as.character(data)):

> levels(subdf$letters)
[1] "a" "b" "c" "d" "e"
> subdf$letters <- as.factor(as.character(subdf$letters))
> levels(subdf$letters)
[1] "a" "b" "c"

— Дирк Эддельбюттель
источник

5

reorderПараметр drop.levelsфункции стоит упомянуть: если у вас есть , чтобы сохранить первоначальный порядок ваших факторов, использовать его FALSEзначение.

— Дарокциг

Использование gdata только для drop.levels приводит к «gdata: read.xls поддержка« XLS »(Excel 97-2004) файлов ENABLED». "gdata: невозможно загрузить библиотеки perl, необходимые для read.xls ()" "gdata: для поддержки файлов 'XLSX' (Excel 2007+)." "gdata: запустить функцию 'installXLSXsupport ()'" "gdata: для автоматической загрузки и установки perl". Использовать уровни уровней от baseR ( stackoverflow.com/a/17218028/9295807 )

— Vrokipal,

Материал случается со временем. Вы будете комментировать ответ я написал девять лет назад. Итак, давайте возьмем это как подсказку, чтобы вообще предпочесть решения на основе R, так как те, которые используют функциональность, которая будет еще через N лет.

— Дирк Эддельбюттель

25

Еще один способ сделать то же самое, но с dplyr

library(dplyr)
subdf <- df %>% filter(numbers <= 3) %>% droplevels()
str(subdf)

Редактировать:

Также работает! Спасибо Agenis

subdf <- df %>% filter(numbers <= 3) %>% droplevels
levels(subdf$letters)

— Prradep
источник

17

Для полноты картины , теперь есть и fct_dropв forcatsпакете http://forcats.tidyverse.org/reference/fct_drop.html .

Он отличается от droplevelsтого, как он работает с NA:

f <- factor(c("a", "b", NA), exclude = NULL)

droplevels(f)
# [1] a    b    <NA>
# Levels: a b <NA>

forcats::fct_drop(f)
# [1] a    b    <NA>
# Levels: a b

— Aurèle
источник

15

Вот еще один способ, который, я считаю, эквивалентен factor(..)подходу:

> df <- data.frame(let=letters[1:5], num=1:5)
> subdf <- df[df$num <= 3, ]

> subdf$let <- subdf$let[ , drop=TRUE]

> levels(subdf$let)
[1] "a" "b" "c"

— АРС
источник

Ха, после всех этих лет я не знал, что есть `[.factor`метод, который имеет dropаргумент, и вы опубликовали это в 2009 году ...

— Дэвид Аренбург

8

Это противно. Вот как я обычно это делаю, чтобы не загружать другие пакеты:

levels(subdf$letters)<-c("a","b","c",NA,NA)

который получает вас:

> subdf$letters
[1] a b c
Levels: a b c

Обратите внимание, что новые уровни заменят все, что занимает их индекс на старых уровнях (subdf $ letters), поэтому что-то вроде:

levels(subdf$letters)<-c(NA,"a","c",NA,"b")

не сработает

Это очевидно не идеально, когда у вас много уровней, но для некоторых это быстро и легко.

— Мэтт Паркер
источник

8

Глядя на кодdroplevels методов в исходном коде R, вы видите, что он factorработает. Это означает, что вы можете воссоздать столбец с помощью factorфункции.
Ниже data.table способ отбрасывать уровни из всех столбцов факторов.

library(data.table)
dt = data.table(letters=factor(letters[1:5]), numbers=seq(1:5))
levels(dt$letters)
#[1] "a" "b" "c" "d" "e"
subdt = dt[numbers <= 3]
levels(subdt$letters)
#[1] "a" "b" "c" "d" "e"

upd.cols = sapply(subdt, is.factor)
subdt[, names(subdt)[upd.cols] := lapply(.SD, factor), .SDcols = upd.cols]
levels(subdt$letters)
#[1] "a" "b" "c"

— jangorecki
источник

1

Я думаю, что data.tableпуть будет что-то вродеfor (j in names(DT)[sapply(DT, is.factor)]) set(DT, j = j, value = factor(DT[[j]]))

— Дэвид Аренбург

1

@DavidArenburg здесь ничего не меняется, так как мы [.data.table

— звоним

7

вот способ сделать это

varFactor <- factor(letters[1:15])
varFactor <- varFactor[1:5]
varFactor <- varFactor[drop=T]

— Диого
источник

2

Это обман этого ответа, который был размещен 5 лет назад.

— Дэвид Аренбург

6

Я написал вспомогательные функции для этого. Теперь, когда я знаю о drop.levels gdata, он выглядит примерно так же. Вот они ( отсюда ):

present_levels <- function(x) intersect(levels(x), x)

trim_levels <- function(...) UseMethod("trim_levels")

trim_levels.factor <- function(x)  factor(x, levels=present_levels(x))

trim_levels.data.frame <- function(x) {
  for (n in names(x))
    if (is.factor(x[,n]))
      x[,n] = trim_levels(x[,n])
  x
}

— Брендан Оконнор
источник

4

Очень интересная ветка, мне особенно понравилась идея просто снова проанализировать выборку. Раньше у меня была похожая проблема, и я просто перешел на характер, а затем снова на фактор.

   df <- data.frame(letters=letters[1:5],numbers=seq(1:5))
   levels(df$letters)
   ## [1] "a" "b" "c" "d" "e"
   subdf <- df[df$numbers <= 3]
   subdf$letters<-factor(as.character(subdf$letters))

— DfAC
источник

Я имею в виду, factor(as.chracter(...))работает, но просто менее эффективно и кратко, чем factor(...). Кажется, строго хуже, чем другие ответы.

— Грегор Томас

1

К сожалению, factor () не работает при использовании rxDataStep из RevoScaleR. Я делаю это в два этапа: 1) Преобразование в символ и сохранение во временном внешнем фрейме данных (.xdf). 2) Преобразовать обратно в фактор и сохранить в определенном внешнем фрейме данных. Это исключает любые неиспользуемые уровни факторов без загрузки всех данных в память.

# Step 1) Converts to character, in temporary xdf file:
rxDataStep(inData = "input.xdf", outFile = "temp.xdf", transforms = list(VAR_X = as.character(VAR_X)), overwrite = T)
# Step 2) Converts back to factor:
rxDataStep(inData = "temp.xdf", outFile = "output.xdf", transforms = list(VAR_X = as.factor(VAR_X)), overwrite = T)

— Джером Смит
источник

1

Попробовал большинство примеров здесь, если не все, но ни один, кажется, не работает в моем случае. После долгого времени я пытался использовать as.character () для столбца factor, чтобы изменить его на col со строками, который, кажется, работает нормально.

Не уверен в проблемах с производительностью.

— Нага Пакалапати
источник