Вопросы с тегом «hadoop»

Hadoop - это проект Apache с открытым исходным кодом, который предоставляет программное обеспечение для надежных и масштабируемых распределенных вычислений. Ядро состоит из распределенной файловой системы (HDFS) и диспетчера ресурсов (YARN). Различные другие проекты с открытым исходным кодом, такие как Apache Hive, используют Apache Hadoop в качестве уровня сохраняемости.

21
Предупреждение Hadoop «Невозможно загрузить библиотеку native-hadoop для вашей платформы»
В настоящее время я настраиваю hadoop на сервере под управлением CentOs . Когда я запускаю start-dfs.shили stop-dfs.sh, я получаю следующую ошибку: WARN util.NativeCodeLoader: невозможно загрузить библиотеку native-hadoop для вашей платформы ... с использованием встроенных классов java, где это применимо Я использую Hadoop 2.2.0. При поиске в Интернете появилась ссылка: http://balanceandbreath.blogspot.ca/2013/01/utilnativecodeloader-unable-to-load.html. …

19
Разница между Свинья и Улей? Почему оба? [закрыто]
Закрыто . Этот вопрос основан на мнении . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы ответить на него фактами и цитатами, отредактировав этот пост . Закрыто 4 года назад . Улучшить этот вопрос Мой опыт - 4 недели в мире Hadoop. Немного поболтал …
256 hadoop  hive  apache-pig 

8
Apache Spark: количество ядер и количество исполнителей
Я пытаюсь понять взаимосвязь количества ядер и количества исполнителей при запуске задания Spark на YARN. Тестовая среда выглядит следующим образом: Количество узлов данных: 3 Спецификация машины узла данных: Процессор: Core i7-4790 (количество ядер: 4, количество потоков: 8) Оперативная память: 32 ГБ (8 ГБ х 4) HDD: 8 ТБ (2 ТБ …

16
Когда использовать Hadoop, HBase, Hive и Pig?
Каковы преимущества использования либо Hadoop или HBase или улей ? Насколько я понимаю, HBase избегает использования map-Reduce и имеет ориентированное на столбцы хранилище поверх HDFS. Hive - это sql-подобный интерфейс для Hadoop и HBase . Я также хотел бы знать, как Hive сравнивается с Pig .
185 hadoop  hbase  hive  apache-pig 

15
Как отключить ведение журнала INFO в Spark?
Я установил Spark с помощью руководства AWS EC2, и я могу нормально запустить программу, используя bin/pysparkсценарий, чтобы добраться до подсказки искры, а также могу успешно выполнить Quick Start quide. Однако, хоть убей, я не могу понять, как остановить подробное INFOведение журнала после каждой команды. Я пробовал почти все возможные сценарии …

14
Spark - загрузить файл CSV как DataFrame?
Я хотел бы прочитать CSV в искре и преобразовать его как DataFrame и сохранить в HDFS с помощью df.registerTempTable("table_name") Я пытался: scala> val df = sqlContext.load("hdfs:///csv/file/dir/file.csv") Ошибка, которую я получил: java.lang.RuntimeException: hdfs:///csv/file/dir/file.csv is not a Parquet file. expected magic number at tail [80, 65, 82, 49] but found [49, 59, …

3
Каковы плюсы и минусы формата паркета по сравнению с другими форматами?
Характеристики паркета Apache: Самоописание Столбчатый формат Независимый от языка По сравнению с Avro, Sequence Files, RC File и т. Д. Мне нужен обзор форматов. Я уже читал: Как Impala работает с форматами файлов Hadoop , он дает некоторое представление о форматах, но я хотел бы знать, как доступ к данным …
137 file  hadoop  hdfs  avro  parquet 


6
Разница между HBase и Hadoop / HDFS
Это своего рода наивный вопрос, но я новичок в парадигме NoSQL и мало о ней знаю. Итак, если кто-то может помочь мне четко понять разницу между HBase и Hadoop или дать несколько указателей, которые могут помочь мне понять разницу. До сих пор я провел небольшое исследование и соотв. Насколько я …
130 hadoop  nosql  hbase  hdfs  difference 


13
Объединение нескольких заданий MapReduce в Hadoop
Во многих реальных ситуациях, когда вы применяете MapReduce, окончательные алгоритмы превращаются в несколько шагов MapReduce. т.е. Map1, Reduce1, Map2, Reduce2 и так далее. Итак, у вас есть результат последнего сокращения, который необходим в качестве входных данных для следующей карты. Промежуточные данные - это то, что вы (как правило) не хотите …
124 hadoop  mapreduce 


6
Как записи процесса Hadoop разделяются по границам блоков?
Согласно Hadoop - The Definitive Guide Логические записи, которые определяет FileInputFormats, обычно не помещаются аккуратно в блоки HDFS. Например, логические записи TextInputFormat - это строки, которые чаще всего пересекают границы HDFS. Это не имеет никакого отношения к работе вашей программы - например, линии не пропущены и не разорваны - но …
119 hadoop  split  mapreduce  block  hdfs 

9
Какова цель фазы перетасовки и сортировки в редукторе в программе Map Reduce?
В программировании Map Reduce фаза сокращения включает в себя перемешивание, сортировку и сокращение в качестве своих частей. Сортировка - дело затратное. Какова цель фазы перетасовки и сортировки в редукторе в программе Map Reduce?

18
Разница между внутренними таблицами Hive и внешними таблицами?
Может ли кто-нибудь сказать мне разницу между внешней таблицей Hive и внутренними таблицами. Я знаю, что разница наступает, когда вы бросаете стол. Я не понимаю, что вы имеете в виду, говоря, что данные и метаданные удаляются во внутренних таблицах, а во внешних таблицах удаляются только метаданные. Кто-нибудь может объяснить мне, …
110 hadoop  hive  hiveql 

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.