Как преобразовать столбец фрейма данных в числовой тип?


Ответы:


267

Поскольку (все еще) никто не ставил галочку, я предполагаю, что вы имеете в виду некоторые практические проблемы, в основном потому, что вы не указали, в какой тип вектора вы хотите преобразовать numeric. Я предлагаю вам применить transformфункцию, чтобы выполнить свою задачу.

Теперь я собираюсь продемонстрировать определенную «аномалию конверсии»:

# create dummy data.frame
d <- data.frame(char = letters[1:5], 
                fake_char = as.character(1:5), 
                fac = factor(1:5), 
                char_fac = factor(letters[1:5]), 
                num = 1:5, stringsAsFactors = FALSE)

Давайте взглянем на data.frame

> d
  char fake_char fac char_fac num
1    a         1   1        a   1
2    b         2   2        b   2
3    c         3   3        c   3
4    d         4   4        d   4
5    e         5   5        e   5

и давай побежим

> sapply(d, mode)
       char   fake_char         fac    char_fac         num 
"character" "character"   "numeric"   "numeric"   "numeric" 
> sapply(d, class)
       char   fake_char         fac    char_fac         num 
"character" "character"    "factor"    "factor"   "integer" 

Теперь вы, вероятно, спросите себя: "Где аномалия?" Ну, я наткнулся на довольно своеобразных вещи в R, и это не самым путая вещь, но это может сбить вас с толку, особенно если вы читаете это перед прокаткой в постель.

Здесь идет: первые два столбца character. Я намеренно назвал 2 - й один fake_char. Найдите сходство этой characterпеременной с той, которую Дирк создал в своем ответе. Это на самом деле numericalвектор преобразован в character. 3- й и 4- й столбцы factor, а последний «чисто» numeric.

Если вы используете transformфункцию, вы можете преобразовать fake_charв numeric, но не в charсаму переменную.

> transform(d, char = as.numeric(char))
  char fake_char fac char_fac num
1   NA         1   1        a   1
2   NA         2   2        b   2
3   NA         3   3        c   3
4   NA         4   4        d   4
5   NA         5   5        e   5
Warning message:
In eval(expr, envir, enclos) : NAs introduced by coercion

но если вы сделаете одно и то же, fake_charи char_facвам повезет, и вы получите без NA:

> transform(d, fake_char = as.numeric(fake_char), 
               char_fac = as.numeric(char_fac))

  char fake_char fac char_fac num
1    a         1   1        1   1
2    b         2   2        2   2
3    c         3   3        3   3
4    d         4   4        4   4
5    e         5   5        5   5

Если вы сохраните преобразованный data.frameи проверьте modeи class, вы получите:

> D <- transform(d, fake_char = as.numeric(fake_char), 
                    char_fac = as.numeric(char_fac))

> sapply(D, mode)
       char   fake_char         fac    char_fac         num 
"character"   "numeric"   "numeric"   "numeric"   "numeric" 
> sapply(D, class)
       char   fake_char         fac    char_fac         num 
"character"   "numeric"    "factor"   "numeric"   "integer"

Итак, вывод такой: да, вы можете конвертировать characterвектор в numericединицу, но только если его элементы «конвертируемы» в numeric. Если characterв векторе только один элемент, вы получите ошибку при попытке преобразовать этот вектор в numericalодин.

И просто чтобы доказать мою точку зрения:

> err <- c(1, "b", 3, 4, "e")
> mode(err)
[1] "character"
> class(err)
[1] "character"
> char <- as.numeric(err)
Warning message:
NAs introduced by coercion 
> char
[1]  1 NA  3  4 NA

А теперь, просто для развлечения (или практики), попробуйте угадать вывод этих команд:

> fac <- as.factor(err)
> fac
???
> num <- as.numeric(fac)
> num
???

С уважением, Патрик Бернс! знак равно


6
'stringsAsFactors = FALSE' важен для чтения файлов данных.
Роберт Брисита

4
Я знаю, что это старый ... но ... почему вы выбрали transform () вместо df $ fake_char <- as.integer (df $ fake_char)? Есть несколько способов сделать одну и ту же операцию в R, и я застрял в понимании «правильного» способа сделать это. Спасибо.
ripvlan

Так что абсолютно невозможно превратить err <- c (1, "b", 3, 4, "e") в числовой вектор? В Excel есть кнопка, которая позволяет вам «конвертировать в число». делая любое значение столбца числовым. Я пытаюсь имитировать это в р.
flightless13wings

Предупреждение! = Ошибка. Вы не получаете ошибку при преобразовании смешанного числа / символа в число, вы получаете предупреждение и некоторые значения NA.
Грегор Томас

136

Что-то, что мне помогло: если у вас есть диапазоны переменных для преобразования (или просто более одной), вы можете использовать sapply.

Немного бессмысленно, но только для примера:

data(cars)
cars[, 1:2] <- sapply(cars[, 1:2], as.factor)

Скажем, столбцы 3, 6-15 и 37 вашего информационного кадра необходимо преобразовать в числовой, который можно:

dat[, c(3,6:15,37)] <- sapply(dat[, c(3,6:15,37)], as.numeric)

1
as.factor в приведенном выше коде делает символ столбца
MySchizoBuddy

1
sapply лучше, чем transform, при обработке векторов индексов, а не имен переменных
smci

@ MySchizoBuddy правильно, по крайней мере, с моими данными. Оригинальный df не будет принимать «преобразованные» столбцы как факторы; они останутся персонажем. Если вы поместите sapplyвызов as.data.frame()с правой стороны, как @Mehrad Mahmoudian предложил ниже, он будет работать.
ноу

Будет ли это работать для матрицы? Я пробую это с точно таким же кодом, но когда я проверяю class () столбца после, он по-прежнему говорит «символ», а не «числовой»
namore

87

Если xэто имя столбца dataframe datи xимеет тип-фактор, используйте:

as.numeric(as.character(dat$x))

3
добавление as.characterдействительно то, что я искал. В противном случае преобразование иногда идет не так. По крайней мере, в моем случае.
Тим Хеннис

1
Зачем нужен символ as.character? Я получаю сообщение об ошибке: Error: (list) object cannot be coerced to type 'double'хотя я был достаточно уверен, что в моем векторе нет символов / знаков препинания. Затем я попытался, as.numeric(as.character(dat$x))и это сработало. Теперь я не уверен, является ли мой столбец целыми числами или нет!
бродяга

2
Если вы сделаете как .numeric для фактора, он преобразует уровни в числовые, а не фактические значения. Следовательно, as.character необходим, чтобы сначала преобразовать фактор в символ, а затем как .numeric
MySchizoBuddy

Это лучший ответ здесь
MitoRibo

25

Я бы добавил комментарий (не могу низкий рейтинг)

Просто добавить на user276042 и pangratz

dat$x = as.numeric(as.character(dat$x))

Это переопределит значения существующего столбца х


16

В то время как ваш вопрос строго о числовых значениях, есть много преобразований, которые трудно понять при начале R. Я постараюсь обратиться к методам, чтобы помочь. Этот вопрос похож на этот вопрос .

Преобразование типов может быть проблемой в R, потому что (1) факторы не могут быть преобразованы непосредственно в числовые, их нужно сначала преобразовать в класс символов, (2) даты представляют собой особый случай, с которым вам обычно приходится иметь дело отдельно, и (3) цикл по столбцам данных может быть сложным. К счастью, «Tidyverse» решил большинство проблем.

Это решение использует mutate_each()для применения функции ко всем столбцам в фрейме данных. В этом случае мы хотим применить type.convert()функцию, которая преобразует строки в числовые, где это возможно. Поскольку R любит факторы (не знаю почему), столбцы символов, которые должны оставаться символами, меняются на фактор. Чтобы исправить это, mutate_if()функция используется для обнаружения столбцов, которые являются факторами и переходят в символьные. Наконец, я хотел показать, как lubridate можно использовать для изменения метки времени в классе символов на дату-время, потому что это также часто является препятствующим блоком для начинающих.


library(tidyverse) 
library(lubridate)

# Recreate data that needs converted to numeric, date-time, etc
data_df
#> # A tibble: 5 × 9
#>             TIMESTAMP SYMBOL    EX  PRICE  SIZE  COND   BID BIDSIZ   OFR
#>                 <chr>  <chr> <chr>  <chr> <chr> <chr> <chr>  <chr> <chr>
#> 1 2012-05-04 09:30:00    BAC     T 7.8900 38538     F  7.89    523  7.90
#> 2 2012-05-04 09:30:01    BAC     Z 7.8850   288     @  7.88  61033  7.90
#> 3 2012-05-04 09:30:03    BAC     X 7.8900  1000     @  7.88   1974  7.89
#> 4 2012-05-04 09:30:07    BAC     T 7.8900 19052     F  7.88   1058  7.89
#> 5 2012-05-04 09:30:08    BAC     Y 7.8900 85053     F  7.88 108101  7.90

# Converting columns to numeric using "tidyverse"
data_df %>%
    mutate_all(type.convert) %>%
    mutate_if(is.factor, as.character) %>%
    mutate(TIMESTAMP = as_datetime(TIMESTAMP, tz = Sys.timezone()))
#> # A tibble: 5 × 9
#>             TIMESTAMP SYMBOL    EX PRICE  SIZE  COND   BID BIDSIZ   OFR
#>                <dttm>  <chr> <chr> <dbl> <int> <chr> <dbl>  <int> <dbl>
#> 1 2012-05-04 09:30:00    BAC     T 7.890 38538     F  7.89    523  7.90
#> 2 2012-05-04 09:30:01    BAC     Z 7.885   288     @  7.88  61033  7.90
#> 3 2012-05-04 09:30:03    BAC     X 7.890  1000     @  7.88   1974  7.89
#> 4 2012-05-04 09:30:07    BAC     T 7.890 19052     F  7.88   1058  7.89
#> 5 2012-05-04 09:30:08    BAC     Y 7.890 85053     F  7.88 108101  7.90

Обратите внимание, что если вы используете mutate_all(type.convert, as.is=TRUE)вместо mutate_all(type.convert), вы можете удалить / избежать, mutate_if(is.factor, as.character)чтобы сократить команду. as.isявляется аргументом, type.convert()который указывает, следует ли преобразовывать строки как символы или как факторы. По умолчанию as.is=FALSEв type.convert()(т. Е. Преобразует строки в фактор-класс вместо символьного класса).
LC-datasientist

15

Тим прав, а у Шейна упущение. Вот дополнительные примеры:

R> df <- data.frame(a = as.character(10:15))
R> df <- data.frame(df, num = as.numeric(df$a), 
                        numchr = as.numeric(as.character(df$a)))
R> df
   a num numchr
1 10   1     10
2 11   2     11
3 12   3     12
4 13   4     13
5 14   5     14
6 15   6     15
R> summary(df)
  a          num           numchr    
 10:1   Min.   :1.00   Min.   :10.0  
 11:1   1st Qu.:2.25   1st Qu.:11.2  
 12:1   Median :3.50   Median :12.5  
 13:1   Mean   :3.50   Mean   :12.5  
 14:1   3rd Qu.:4.75   3rd Qu.:13.8  
 15:1   Max.   :6.00   Max.   :15.0  
R> 

Наша data.frameтеперь сводка колонки фактора (имп) и числовые краткой информации о as.numeric()--- , который не так , как он получил цифровые уровни фактора --- и (правильное) резюме as.numeric(as.character()).


1
С удовольствием. Это один из самых глупых моментов языка, и я думаю, что он фигурировал в более старом вопросе 'R Gotchas' здесь.
Дирк Эддельбюттель

14

С помощью следующего кода вы можете преобразовать все столбцы фрейма данных в числовые (X - фрейм данных, в который мы хотим преобразовать его столбцы):

as.data.frame(lapply(X, as.numeric))

и для преобразования всей матрицы в числовой у вас есть два способа: Либо:

mode(X) <- "numeric"

или:

X <- apply(X, 2, as.numeric)

В качестве альтернативы вы можете использовать data.matrixфункцию для преобразования всего в числовое значение, хотя имейте в виду, что факторы могут преобразовываться неправильно, поэтому безопаснее преобразовать все в characterпервое:

X <- sapply(X, as.character)
X <- data.matrix(X)

Я обычно использую этот последний, если я хочу преобразовать в матрицу и число одновременно


12

Если у вас возникли проблемы с:

as.numeric(as.character(dat$x))

Посмотрите на ваши десятичные знаки. Если они "," вместо "." (например, «5,3») выше не будет работать.

Потенциальное решение:

as.numeric(gsub(",", ".", dat$x))

Я считаю, что это довольно распространено в некоторых не англоязычных странах.


8

Универсальный способ использования type.convert()и rapply():

convert_types <- function(x) {
    stopifnot(is.list(x))
    x[] <- rapply(x, utils::type.convert, classes = "character",
                  how = "replace", as.is = TRUE)
    return(x)
}
d <- data.frame(char = letters[1:5], 
                fake_char = as.character(1:5), 
                fac = factor(1:5), 
                char_fac = factor(letters[1:5]), 
                num = 1:5, stringsAsFactors = FALSE)
sapply(d, class)
#>        char   fake_char         fac    char_fac         num 
#> "character" "character"    "factor"    "factor"   "integer"
sapply(convert_types(d), class)
#>        char   fake_char         fac    char_fac         num 
#> "character"   "integer"    "factor"    "factor"   "integer"

3
Это самое гибкое решение - заслуживает некоторых голосов!
Ричард Бордер

Должен быть лучший ответ. Просто удалите, as.is = TRUEесли вы хотите преобразовать вашего персонажа в числовые или в коэффициенты
qfazille

при попытке изменить группу столбцов в файле data.frame, имеющем тип matrixс числовыми изменениями, classes=matrixошибочный первый аргумент должен иметь символ режима
add-

1
Это лучший ответ в теме.
юк

3

Чтобы преобразовать столбец фрейма данных в числовой, вам просто нужно сделать: -

коэффициент к числовому: -

data_frame$column <- as.numeric(as.character(data_frame$column))

Опять же, этот ответ ничего не добавляет к текущему набору ответов. Кроме того, это не предпочтительный способ преобразования коэффициента в числовой. См. Stackoverflow.com/q/3418128 для предпочтительного пути.
BenBarnes

Лучший ответ был:sapply(data_frame,function(x) as.numeric(as.character(x)))
data-frame-gg

2

Хотя другие довольно хорошо освещали эту тему, я хотел бы добавить эту дополнительную мысль / подсказку. Вы можете использовать регулярное выражение, чтобы заранее проверить, могут ли символы состоять только из цифр.

for(i in seq_along(names(df)){
     potential_numcol[i] <- all(!grepl("[a-zA-Z]",d[,i]))
}
# and now just convert only the numeric ones
d <- sapply(d[,potential_numcol],as.numeric)

Для более сложных регулярных выражений и ясной причины, чтобы узнать / испытать их силу, посмотрите этот действительно хороший сайт: http://regexr.com/


1

Учитывая, что могут существовать столбцы с символами, это основано на @Abdou в разделе Получить типы столбцов таблицы Excel, который автоматически отвечает:

makenumcols<-function(df){
  df<-as.data.frame(df)
  df[] <- lapply(df, as.character)
  cond <- apply(df, 2, function(x) {
    x <- x[!is.na(x)]
    all(suppressWarnings(!is.na(as.numeric(x))))
  })
  numeric_cols <- names(df)[cond]
  df[,numeric_cols] <- sapply(df[,numeric_cols], as.numeric)
  return(df)
}
df<-makenumcols(df)

0

В моем ПК (R v.3.2.3) applyили sapplyвыдают ошибку. lapplyработает хорошо.

dt[,2:4] <- lapply(dt[,2:4], function (x) as.factor(as.numeric(x)))

0

Если в кадре данных есть несколько типов столбцов, некоторые символы, некоторые числовые, попробуйте следующее, чтобы преобразовать только столбцы, содержащие числовые значения, в числовые:

for (i in 1:length(data[1,])){
  if(length(as.numeric(data[,i][!is.na(data[,i])])[!is.na(as.numeric(data[,i][!is.na(data[,i])]))])==0){}
  else {
    data[,i]<-as.numeric(data[,i])
  }
}

0

с hablar :: convert

Чтобы легко преобразовать несколько столбцов в разные типы данных, вы можете использовать hablar::convert. Простой синтаксис: df %>% convert(num(a))преобразовывает столбец a из df в числовой.

Подробный пример

Позволяет преобразовать все столбцы mtcarsв символ.

df <- mtcars %>% mutate_all(as.character) %>% as_tibble()

> df
# A tibble: 32 x 11
   mpg   cyl   disp  hp    drat  wt    qsec  vs    am    gear  carb 
   <chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr>
 1 21    6     160   110   3.9   2.62  16.46 0     1     4     4    
 2 21    6     160   110   3.9   2.875 17.02 0     1     4     4    
 3 22.8  4     108   93    3.85  2.32  18.61 1     1     4     1    

С hablar::convert:

library(hablar)

# Convert columns to integer, numeric and factor
df %>% 
  convert(int(cyl, vs),
          num(disp:wt),
          fct(gear))

результаты в:

# A tibble: 32 x 11
   mpg     cyl  disp    hp  drat    wt qsec     vs am    gear  carb 
   <chr> <int> <dbl> <dbl> <dbl> <dbl> <chr> <int> <chr> <fct> <chr>
 1 21        6  160    110  3.9   2.62 16.46     0 1     4     4    
 2 21        6  160    110  3.9   2.88 17.02     0 1     4     4    
 3 22.8      4  108     93  3.85  2.32 18.61     1 1     4     1    
 4 21.4      6  258    110  3.08  3.22 19.44     1 0     3     1   

0

Чтобы преобразовать символ в число, вы должны преобразовать его в коэффициент, применив

BankFinal1 <- transform(BankLoan,   LoanApproval=as.factor(LoanApproval))
BankFinal1 <- transform(BankFinal1, LoanApp=as.factor(LoanApproval))

Вы должны сделать два столбца с одинаковыми данными, потому что один столбец не может быть преобразован в числовой. Если вы делаете одно преобразование, это дает ошибку ниже

transform(BankData, LoanApp=as.numeric(LoanApproval))
Warning message:
  In eval(substitute(list(...)), `_data`, parent.frame()) :
  NAs introduced by coercion

Итак, после выполнения двух столбцов одни и те же данные применяются

BankFinal1 <- transform(BankFinal1, LoanApp      = as.numeric(LoanApp), 
                                    LoanApproval = as.numeric(LoanApproval))

он преобразует символ в числовой успешно



0

Если вы не заботитесь о сохранении факторов и хотите применить его к любому столбцу, который можно преобразовать в числовой, я воспользовался приведенным ниже сценарием. если df - ваш оригинальный фрейм данных, вы можете использовать скрипт ниже.

df[] <- lapply(df, as.character)
df <- data.frame(lapply(df, function(x) ifelse(!is.na(as.numeric(x)), as.numeric(x),  x)))

Я ссылался на решение Шейна и Джорана, кстати

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.