программирование data.table

8

Преобразование классов столбцов в data.table

У меня проблема с использованием data.table: как преобразовать классы столбцов? Вот простой пример: с data.frame у меня нет проблем с его преобразованием, с data.table я просто не знаю как: df <- data.frame(ID=c(rep("A", 5), rep("B",5)), Quarter=c(1:5, 1:5), value=rnorm(10)) #One way: http://stackoverflow.com/questions/2851015/r-convert-data-frame-columns-from-factors-to-characters df <- data.frame(lapply(df, as.character), stringsAsFactors=FALSE) #Another way df[, "value"] <- …

118 r data.table

2

Какова цель установки ключа в data.table?

Я использую data.table, и есть много функций, которые требуют от меня установки ключа (например X[Y]). Таким образом, я хочу понять, что делает ключ, чтобы правильно устанавливать ключи в моих таблицах данных. Я прочитал один источник ?setkey. setkey()сортирует data.tableи отмечает его как отсортированный. Отсортированные столбцы - это ключ. Ключом могут быть …

113 r data.table

8

Очистка значений Inf из фрейма данных R

В R у меня есть операция, которая создает некоторые Infзначения при преобразовании фрейма данных. Я хотел бы превратить эти Infценности в NAценности. Код, который у меня есть, работает медленно для больших данных, есть ли более быстрый способ сделать это? Скажем, у меня есть следующий фрейм данных: dat <- data.frame(a=c(1, Inf), …

103 r dataframe data.table

5

Какой самый быстрый способ объединить / объединить data.frames в R?

Например (не уверен, что это наиболее репрезентативный пример): N <- 1e6 d1 <- data.frame(x=sample(N,N), y1=rnorm(N)) d2 <- data.frame(x=sample(N,N), y2=rnorm(N)) Вот что у меня есть на данный момент: d <- merge(d1,d2) # 7.6 sec library(plyr) d <- join(d1,d2) # 2.9 sec library(data.table) dt1 <- data.table(d1, key="x") dt2 <- data.table(d2, key="x") d …

97 performance r join merge data.table

6

Получение лучших значений по группе

Вот пример фрейма данных: d <- data.frame( x = runif(90), grp = gl(3, 30) ) Я хочу, чтобы подмножество dсодержало строки с 5 верхними значениями xдля каждого значения grp. Используя base-R, мой подход будет примерно таким: ordered <- d[order(d$x, decreasing = TRUE), ] splits <- split(ordered, ordered$grp) heads <- lapply(splits, …

93 r data.table dplyr

4

dplyr на data.table, я действительно использую data.table?

Если я использую синтаксис dplyr поверх datatable , получу ли я все преимущества скорости от datatable, по-прежнему используя синтаксис dplyr? Другими словами, могу ли я неправильно использовать datatable, если я запрашиваю его с синтаксисом dplyr? Или мне нужно использовать чистый синтаксис datatable, чтобы использовать всю его мощь. Заранее благодарю за …

91 r data.table dplyr

1

Когда мне следует использовать оператор: = в data.table?

data.tableтеперь у объектов есть оператор: =. Что отличает этот оператор от всех других операторов присваивания? Кроме того, каково его использование, насколько он быстрее и когда его следует избегать?

88 r data.table colon-equals

5

Разделить текстовую строку на столбцы data.table

У меня есть сценарий, который считывает данные из файла CSV в, data.tableа затем разбивает текст в одном столбце на несколько новых столбцов. Я в настоящее время с помощью lapplyи strsplitфункции , чтобы сделать это. Вот пример: library("data.table") df = data.table(PREFIX = c("A_B","A_C","A_D","B_A","B_C","B_D"), VALUE = 1:6) dt = as.data.table(df) # split …

86 r data.table

7

Как применить одну и ту же функцию к каждому указанному столбцу в таблице data.table

У меня есть таблица данных, с которой я хотел бы выполнить ту же операцию с определенными столбцами. Имена этих столбцов даны в векторе символов. В этом конкретном примере я хотел бы умножить все эти столбцы на -1. Некоторые данные игрушки и вектор, определяющий соответствующие столбцы: library(data.table) dt <- data.table(a = …

86 r data.table

12

dplyr изменить / заменить несколько столбцов в подмножестве строк

Я пытаюсь опробовать рабочий процесс на основе dplyr (вместо того, чтобы использовать в основном data.table, к которому я привык), и я столкнулся с проблемой, что я не могу найти эквивалентное решение dplyr для . Я обычно сталкиваюсь со сценарием, когда мне нужно условно обновить / заменить несколько столбцов на основе …

86 r data.table dplyr

10

Как заменить значения NA в таблице для выбранных столбцов

Есть много сообщений о замене ценностей NA. Я знаю, что можно заменить NA в следующей таблице / кадре следующим: x[is.na(x)]<-0 Но что, если я хочу ограничить его только определенными столбцами? Я покажу вам пример. Во-первых, давайте начнем с набора данных. set.seed(1234) x <- data.frame(a=sample(c(1,2,NA), 10, replace=T), b=sample(c(1,2,NA), 10, replace=T), c=sample(c(1:5,NA), …

82 r replace dataframe data.table na

5

data.table линейно интерполируя значения NA без групп

Я хотел заполнить некоторые значения NA в data.table без групп. Пожалуйста, рассмотрите этот фрагмент data.table, представляющий время и расстояния: library(data.table) df <- data.frame(time = seq(7173, 7195, 1), dist = c(31091.33, NA, 31100.00, 31103.27, NA, NA, NA, NA, 31124.98, NA,31132.81, NA, NA, NA, NA, 31154.19, NA, 31161.47, NA, NA, NA, NA, …

18 r data.table

4

Найти ближайших соседей по группе, используя таблицу данных или игру

У меня есть data.table : groups <- data.table(group = c("A", "B", "C", "D", "E", "F", "G"), code_1 = c(2,2,2,7,8,NA,5), code_2 = c(NA,3,NA,3,NA,NA,2), code_3 = c(4,1,1,4,4,1,8)) group code_1 code_2 code_3 A 2 NA 4 B 2 3 1 C 2 NA 1 D 7 3 4 E 8 NA 4 F …

14 r data.table igraph

1

Преимущества повышения производительности по сравнению с ANDing при фильтрации таблицы данных

У меня есть привычка объединять похожие задачи в одну строку. Например, если мне нужно отфильтровать a, bи cв таблице данных, я положу их вместе в одном[] с Андами. Вчера я заметил, что в моем конкретном случае это было невероятно медленно, и вместо этого проверил фильтры цепочки. Я включил пример ниже. …

12 r data.table

6

разделить символьные столбцы и получить имена полей в строке

Мне нужно разделить столбец, содержащий информацию, на несколько столбцов. Я бы использовал, tstrsplitно информация такого же рода не в том же порядке среди строк, и мне нужно извлечь имя нового столбца в переменной. Важно знать: может быть много информации (поля, которые станут новыми переменными), и я не знаю всех из …

11 r data.table reshape

Вопросы с тегом «data.table»