Как я отметил в своем комментарии , в вопросе недостаточно подробностей, чтобы сформулировать реальный ответ. Поскольку вам нужна помощь даже в поиске правильных терминов и формулировании вашего вопроса, я могу кратко рассказать об общих чертах.
→ 2
В некотором смысле, очистка данных может быть выполнена в любом программном обеспечении и с помощью Excel или R. У обоих вариантов будут свои плюсы и минусы:
- Excel: Excel почти наверняка является наиболее распространенным выбором для очистки данных (см. R fortunes # 59 pdf ). Это также считается плохим выбором для статистиков. Основная причина заключается в том, что трудно убедиться, что вы все поймали или что вы относились ко всему одинаково, и нет записей об изменениях, которые вы внесли, поэтому вы не сможете вернуться к этим изменениям позже. Преимущество использования Excel состоит в том, что вам будет легче видеть, что вы делаете, и вам не нужно много знать, чтобы вносить изменения. (Статистики сочтут последнее дополнительным доводом .)
R: R потребует крутой кривой обучения. Если вы не очень хорошо знакомы с R или программированием, то попытки, которые можно сделать довольно быстро и легко в Excel, будут неприятны, если вы попытаетесь использовать R. С другой стороны, если вам когда-либо придется делать это снова, это обучение будет хорошо проведенное время Кроме того, возможность писать и сохранять свой код для очистки данных в R облегчит перечисленные выше недостатки. Ниже приведены некоторые ссылки, которые помогут вам начать работу с этими задачами в R:
Вы можете получить много полезной информации о переполнении стека :
Quick-R также является ценным ресурсом:
Получение чисел в числовом режиме:
Еще один бесценный источник информации о R - справочный веб-сайт UCLA :
Наконец, вы всегда можете найти много информации с помощью старого доброго Google:
- Этот поиск: очистка данных в r , выводит несколько учебных пособий (ни один из которых я не изучал, FTR).
Обновление: это распространенная проблема, касающаяся структуры вашего набора данных, когда у вас есть несколько измерений на «единицу обучения» (в вашем случае, на человека). Если у вас есть одна строка для каждого человека, ваши данные, как говорят, находятся в «широкой» форме, но тогда у вас обязательно будет несколько столбцов для вашей переменной ответа, например. С другой стороны, вы можете иметь только один столбец для вашей переменной ответа (но в результате иметь несколько строк на человека), и в этом случае ваши данные будут иметь «длинную» форму. Переход между этими двумя форматами часто называют «преобразованием» ваших данных, особенно в мире R.
- Стандартная функция R для этого - изменить форму . На справочном
reshape()
сайте статистики UCLA есть руководство по использованию .
- Многие думают, что с ними
reshape
тяжело работать. Хэдли Уикхем предоставил пакет под названием reshape2 , который призван упростить процесс. Персональный сайт Хэдли для reshape2 находится здесь , обзор Quick-R находится здесь , и есть хороший вид учебник здесь .
- На SO очень много вопросов о том, как изменить данные. Большинство из них предназначены для перехода от широкого к длинному, потому что именно с этим обычно сталкиваются аналитики данных. Ваш вопрос касается перехода от длинного к широкому, что встречается гораздо реже, но об этом еще много тем, вы можете просмотреть их с помощью этого поиска .
- Если ваше сердце настроено на попытки сделать это с Excel, есть поток о написании макроса VBA для Excel, чтобы реплицировать функциональность изменения формы здесь: melt / rehshape в Excel с использованием VBA?
data.table
,dplyr
,plyr
, иreshape2
- я рекомендую избегать Excel и сводных таблиц , если это возможно.