Обработка больших наборов данных в R - руководства, лучшие практики и т. Д.


11

Я R noob, который должен выполнять различные виды анализа больших наборов данных в R. Поэтому, просматривая этот сайт и другие места, мне показалось, что здесь есть много эзотерических и менее известных проблем, таких как какой пакет использовать, когда, какие преобразования (не) применяются к данным и т. д.

Мне просто интересно, есть ли книга / учебник / руководство, которое демистифицирует все это и представляет информацию систематически? Я предпочитаю делать это, а не смотреть по сторонам и собирать информацию из разных источников в Интернете.

Заранее спасибо.



1
Это может помочь поделиться некоторыми примерами того, какой анализ вы хотите сделать и как выглядят ваши данные. Простая статистика как средство или сложные регрессии? 200 переменных на тысячу строк или 4 переменных и 20 миллионов строк?
PaulHurleyuk

1
Если у вас действительно «большие» наборы данных, вам, возможно, стоит взглянуть на реляционные базы данных. Отправной точкой для этого может быть руководство «Импорт / экспорт данных R», которое поставляется вместе с RNB. Руководство также доступно в разделе «Руководства» на веб-сайте R.

1
Во-первых, важный вопрос: что вы имеете в виду под большим и что вы хотите сделать?
Fomite

Ответы:


3

Вот несколько постов в блоге, которые я сделал на эту тему «Большие наборы данных с R.». Есть несколько пакетов, таких как ff и bigmemory, которые используют обмен файлами и распределение памяти. Несколько других пакетов используют подключение к базам данных, таким как sqldf, RMySQL и RSQLite.

R Ссылки для обработки больших данных

Логистическая регрессия больших данных в R с ODBC

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.