программирование dplyr

5

У меня есть данные онлайн-опроса, в котором респонденты задают цикл вопросов 1-3 раза. Обзор программного обеспечения (Qualtrics) записывает эти данные в нескольких столбцах, то есть, В3.2 в обзоре будет иметь столбцы Q3.2.1., Q3.2.2.и Q3.2.3.: df <- data.frame( id = 1:10, time = as.Date('2009-01-01') + 0:9, Q3.2.1. = rnorm(10, 0, 1), …

108 r reshape dplyr qualtrics tidyr

6

фильтр для полных случаев в data.frame с помощью dplyr (удаление по регистру)

Можно ли фильтровать data.frame для полных случаев с помощью dplyr? complete.casesсо списком всех переменных работает, конечно. Но это а) многословно, когда есть много переменных, и б) невозможно, когда имена переменных неизвестны (например, в функции, которая обрабатывает любой data.frame). library(dplyr) df = data.frame( x1 = c(1,2,3,NA), x2 = c(1,2,NA,5) ) df …

99 r dplyr magrittr

6

Суммирование по нескольким столбцам с помощью dplyr

Мой вопрос включает суммирование значений по нескольким столбцам фрейма данных и создание нового столбца, соответствующего этому суммированию, используя dplyr. Записи данных в столбцах являются двоичными (0,1). Я думаю о построчном аналоге функции summarise_eachили . Ниже приведен минимальный пример фрейма данных:mutate_eachdplyr library(dplyr) df=data.frame( x1=c(1,0,0,NA,0,1,1,NA,0,1), x2=c(1,1,NA,1,1,0,NA,NA,0,1), x3=c(0,1,0,1,1,0,NA,NA,0,1), x4=c(1,0,NA,1,0,0,NA,0,0,1), x5=c(1,1,NA,1,1,1,NA,1,0,1)) > df x1 …

98 r dplyr

4

dplyr summarize: эквивалент «.drop = FALSE» для сохранения групп с нулевой длиной на выходе

При использовании summariseс plyr«S ddplyфункции, пустые категории удаляются по умолчанию. Вы можете изменить это поведение, добавив .drop = FALSE. Однако это не работает при использовании summariseс dplyr. Есть ли другой способ сохранить в результате пустые категории? Вот пример с поддельными данными. library(dplyr) df = data.frame(a=rep(1:3,4), b=rep(1:2,6)) # Now add an …

97 r dplyr plyr tidyr

8

R dplyr: удаление нескольких столбцов

У меня есть фрейм данных и список столбцов в этом фреймворке, который я хотел бы удалить. Давайте использовать irisнабор данных в качестве примера. Я хотел бы бросить Sepal.Lengthи Sepal.Widthи использовать только оставшиеся столбцы. Как это сделать с помощью пакета selectили select_из dplyrпакета? Вот что я пробовал до сих пор: drop.cols …

97 r dplyr

6

dplyr: «Ошибка в n (): функцию нельзя вызывать напрямую»

Я пытаюсь воспроизвести один из примеров из пакета dplyr, но получаю это сообщение об ошибке. Я ожидаю увидеть новый столбец n с частотой каждой комбинации. Что мне не хватает? Я трижды проверил, что пакет загружен. library(dplyr) # summarise peels off a single layer of grouping by_vs_am <- group_by(mtcars, vs, am) …

96 r function plyr dplyr conflicting-libraries

1

Как интерпретировать сообщение dplyr `summarize ()`, перегруппировывающее вывод по 'x' (переопределить с помощью аргумента `.groups`)?

Я начал получать новое сообщение (см. Заголовок сообщения) при запуске group_by и summarize () после обновления до версии разработки dplyr 0.8.99.9003. Вот пример воссоздания вывода: library(tidyverse) library(hablar) df <- read_csv("year, week, rat_house_females, rat_house_males, mouse_wild_females, mouse_wild_males 2018,10,1,1,1,1 2018,10,1,1,1,1 2018,11,2,2,2,2 2018,11,2,2,2,2 2019,10,3,3,3,3 2019,10,3,3,3,3 2019,11,4,4,4,4 2019,11,4,4,4,4") %>% convert(chr(year,week)) %>% mutate(total_rodents = rowSums(select_if(., is.numeric))) …

94 r dplyr summarize

6

Получение лучших значений по группе

Вот пример фрейма данных: d <- data.frame( x = runif(90), grp = gl(3, 30) ) Я хочу, чтобы подмножество dсодержало строки с 5 верхними значениями xдля каждого значения grp. Используя base-R, мой подход будет примерно таким: ordered <- d[order(d$x, decreasing = TRUE), ] splits <- split(ordered, ordered$grp) heads <- lapply(splits, …

93 r data.table dplyr

5

R Условная оценка при использовании оператора вертикальной черты%>%

При использовании оператора трубы %>%с пакетами , такими как dplyr, ggvis, dychartsи т.д., как я делаю шаг условно? Например; step_1 %>% step_2 %>% if(condition) step_3 Эти подходы, похоже, не работают: step_1 %>% step_2 if(condition) %>% step_3 step_1 %>% step_2 %>% if(condition) step_3 Это долгий путь: if(condition) { step_1 %>% step_2 …

93 r dplyr ggvis magrittr

4

dplyr на data.table, я действительно использую data.table?

Если я использую синтаксис dplyr поверх datatable , получу ли я все преимущества скорости от datatable, по-прежнему используя синтаксис dplyr? Другими словами, могу ли я неправильно использовать datatable, если я запрашиваю его с синтаксисом dplyr? Или мне нужно использовать чистый синтаксис datatable, чтобы использовать всю его мощь. Заранее благодарю за …

91 r data.table dplyr

2

Как указать имена столбцов для x и y при объединении в dplyr?

У меня есть два фрейма данных, к которым я хочу присоединиться с помощью dplyr. Один - это фрейм данных, содержащий имена. test_data <- data.frame(first_name = c("john", "bill", "madison", "abby", "zzz"), stringsAsFactors = FALSE) Другой фрейм данных содержит очищенную версию корпуса имен Кантровица с указанием пола. Вот минимальный пример: kantrowitz <- …

89 r join left-join dplyr

3

dplyr мутировать с условными значениями

В большом фрейме данных («myfile») с четырьмя столбцами мне нужно добавить пятый столбец со значениями, условно основанными на первых четырех столбцах. Предпочитайте ответы с dplyrи mutate, главным образом из-за его скорости в больших наборах данных. Мой фрейм данных выглядит так: V1 V2 V3 V4 1 1 2 3 5 2 …

87 r dplyr mutate

12

dplyr изменить / заменить несколько столбцов в подмножестве строк

Я пытаюсь опробовать рабочий процесс на основе dplyr (вместо того, чтобы использовать в основном data.table, к которому я привык), и я столкнулся с проблемой, что я не могу найти эквивалентное решение dplyr для . Я обычно сталкиваюсь со сценарием, когда мне нужно условно обновить / заменить несколько столбцов на основе …

86 r data.table dplyr

4

Выбор столбцов на основе совпадения строк - dplyr :: select

У меня есть фрейм данных («данные») с множеством столбцов. Некоторые столбцы содержат определенную строку ("search_string"). Как я могу использовать, dplyr::select()чтобы дать мне подмножество, включающее только столбцы, содержащие строку? Я старался: # columns as boolean vector select(data, grepl("search_string",colnames(data))) # columns as vector of column names names select(data, colnames(data)[grepl("search_string",colnames(data))]) Ни один из …

83 r regex dplyr

7

Как заменить NA с набором значений

У меня есть следующий фрейм данных: library(dplyr) library(tibble) df <- tibble( source = c("a", "b", "c", "d", "e"), score = c(10, 5, NA, 3, NA ) ) df Это выглядит так: # A tibble: 5 x 2 source score <chr> <dbl> 1 a 10 . # current max value 2 …

18 r dplyr tibble

Вопросы с тегом «dplyr»