Вопросы с тегом «hdfs»

14
Spark - загрузить файл CSV как DataFrame?
Я хотел бы прочитать CSV в искре и преобразовать его как DataFrame и сохранить в HDFS с помощью df.registerTempTable("table_name") Я пытался: scala> val df = sqlContext.load("hdfs:///csv/file/dir/file.csv") Ошибка, которую я получил: java.lang.RuntimeException: hdfs:///csv/file/dir/file.csv is not a Parquet file. expected magic number at tail [80, 65, 82, 49] but found [49, 59, …

3
Каковы плюсы и минусы формата паркета по сравнению с другими форматами?
Характеристики паркета Apache: Самоописание Столбчатый формат Независимый от языка По сравнению с Avro, Sequence Files, RC File и т. Д. Мне нужен обзор форматов. Я уже читал: Как Impala работает с форматами файлов Hadoop , он дает некоторое представление о форматах, но я хотел бы знать, как доступ к данным …
137 file  hadoop  hdfs  avro  parquet 


6
Разница между HBase и Hadoop / HDFS
Это своего рода наивный вопрос, но я новичок в парадигме NoSQL и мало о ней знаю. Итак, если кто-то может помочь мне четко понять разницу между HBase и Hadoop или дать несколько указателей, которые могут помочь мне понять разницу. До сих пор я провел небольшое исследование и соотв. Насколько я …
130 hadoop  nosql  hbase  hdfs  difference 


6
Как записи процесса Hadoop разделяются по границам блоков?
Согласно Hadoop - The Definitive Guide Логические записи, которые определяет FileInputFormats, обычно не помещаются аккуратно в блоки HDFS. Например, логические записи TextInputFormat - это строки, которые чаще всего пересекают границы HDFS. Это не имеет никакого отношения к работе вашей программы - например, линии не пропущены и не разорваны - но …
119 hadoop  split  mapreduce  block  hdfs 

9
Какова цель фазы перетасовки и сортировки в редукторе в программе Map Reduce?
В программировании Map Reduce фаза сокращения включает в себя перемешивание, сортировку и сокращение в качестве своих частей. Сортировка - дело затратное. Какова цель фазы перетасовки и сортировки в редукторе в программе Map Reduce?

6
В чем разница между командами оболочки «hadoop fs» и командами оболочки «hdfs dfs»?
Они должны быть равными? но почему команды " hadoop fs" показывают, hdfs filesа команды " hdfs dfs" показывают локальные файлы? вот информация о версии hadoop: Hadoop 2.0.0-mr1-cdh4.2.1 Subversion git: //ubuntu-slave07.jenkins.cloudera.com/var/lib/jenkins/workspace/CDH4.2.1-Packaging-MR1/build/cdh4/mr1/2.0.0 -mr1-cdh4.2.1 / source -r Скомпилировано jenkins в понедельник, 22 апреля, 10:48:26 PDT 2013
109 hadoop  hdfs 

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.