Результаты поиска по запросу "hadoop"
Как читать файлы gz в Spark, используя wholeTextFiles
У меня есть папка, которая содержит много небольших файлов .gz (сжатые текстовые файлы CSV). Мне нужно прочитать их в моей работе Spark, но дело в том, что м...
Использование эластичного поиска в качестве центрального хранилища данных
В настоящее время мы используем эластичный поиск для индексации и выполнения поиска около 10 миллионов документов. Он отлично работает, и мы довольны его раб...
Hbase внезапно попытался подключиться к локальному хосту вместо кворума zookeeper
Я проводил некоторые тесты с таблицами картографов и редукторов для крупномасштабных задач. После определенного момента мои редукторы начали выходить из стро...
Apache Spark: количество ядер против количества исполнителей
Я пытаюсь понять взаимосвязь количества ядер и числа исполнителей при запуске задания Spark на YARN.Тестовая среда выглядит следующим образом:Количество узло...
Каков наилучший способ запустить и остановить экосистему hadoop с помощью командной строки?
Я вижу, что есть несколько способов запустить экосистему Hadoop, start-all.sh & stop-all.sh Который говорит, что это устарело, используйте start-dfs.sh & start-yarn.sh. start-dfs.sh, stop-dfs.sh and start-yarn.sh, stop-yarn.sh hadoop-daemon.sh ...
Класс картографа не найден
Иногда моя работа MR жалуется, что класс MyMapper не найден. И что я должен дать job.setJarByClass (MyMapper.class); сказать ему, чтобы загрузить его из моего файла JAR. cloudera @ cloudera-vm: / tmp / translationator $ hadoop jar ...