Результаты поиска по запросу "hadoop"
Запустите команду maven снова, вы должны быть готовы.
х пор я разветвлял репозиторий Git: https://github.com/apache/hadoopЯ искал информацию о том, как собрать из исходного кода, я попробовал эту команду: mvn package -Pdist -Dtar -DskipTestsчто привело к следующей ошибке: [/imgs/oKCKQ.jpg] Не ...
https://issues.apache.org/jira/browse/SPARK-17817
у проверить, как мы можем получить информацию о каждом разделе, например, общее нет. записей в каждом разделе на стороне водителя, когда задание Spark отправляется в режиме развертывания в виде кластера пряжи для регистрации или печати на консоли.
Если мы просто посмотрим на шаги Map / Reduce и составление расписания Hadoop, то я бы сказал, что MPI - намного лучшая методология / технология. MPI поддерживает множество различных шаблонов обмена, таких как широковещание, барьер, сбор всего, разброс / сбор (или назовите это уменьшением карты) Но Hadoop также имеет HDFS. При этом данные могут располагаться гораздо ближе к узлам обработки. И если вы посмотрите на проблемное пространство, в котором используются Hadoop-подобные технологии, результаты шагов сокращения были на самом деле довольно большими, и вы не хотели бы, чтобы вся эта информация затопляла вашу сеть. Вот почему Hadoop сохраняет все на диск. Но управляющие сообщения могли использовать MPI, а сообщения MPI могли просто иметь указатели (URL или файловые дескрипторы) на фактические данные на диске ...
вьте меня, если я ошибаюсь, но я понимаю, что Hadoop не использует MPI для связи между различными узлами. Каковы технические причины для этого? Я мог бы рискнуть несколькими догадками, но я не знаю достаточно того, как MPI реализован «под ...
Нам не нужно использовать Dockerized Zeppelin, давайте сначала попробуем бинарный файл на вашей локальной машине, чтобы убрать сложности.
ользую этот учебникискровой кластер на режиме пряжи в док-контейнере [https://zeppelin.apache.org/docs/0.7.0/install/spark_cluster_mode.html#spark-on-yarn-mode] запустить цеппелин в искровом кластере в режиме пряжи. Однако я застрял на шаге 4. Я ...
Спасибо за concat_ws !!
я есть входные данные, как показано ниже, с идентификатором, приложением и клиентом Входной фрейм данных +--------------------+-----+---------+ | id|app |customer | +--------------------+-----+---------+ |id1 | fw| WM | |id1 | fw| CS | |id2 ...
@ cricket_007 Поддерживает ли --files копирование папок произвольной структуры вложенности? Я не мог подтвердить это.
трю, как скопировать папку с файлами зависимостей ресурсов из HDFS в локальный рабочий каталог каждого искрового исполнителя с использованием Java. Сначала я думал об использовании опции --files FILES в spark-submit, но, похоже, она не ...
Hadoop FileSystem закрытое исключение при выполнении BufferedReader.close ()
Из метода настройки Reduce, я пытаюсь закрытьBufferedReader возражать и получатьFileSystem закрытое исключение. Это не происходит все время. Это кусок кода, который я использовал для созданияBufferedReader. String fileName = <some HDFS file ...
+1 за квизм реф. Отличный вариант для начала, который прошел производственные испытания, использует его существующую инфраструктуру и требует минимальных изменений.
аю об использовании hadoop для обработки больших текстовых файлов на моих существующих серверах Windows 2003 (около 10 четырехъядерных компьютеров с 16 ГБ ОЗУ) Вопросы: Есть ли хороший учебник о том, как настроить кластер hadoop на ...
Вот
аюсь трансформироватьсяRDD(key,value) вRDD(key,iterable[value])То же, что и результат, возвращаемыйgroupByKey метод. Но, какgroupByKey не эффективно, я пытаюсь использоватьcombineByKey на RDD вместо этого, однако, это не работает. Ниже приведен ...
Эти сложные демонстрации настолько ясны, чтобы знать, как написать внутреннее соединение и левое соединение. Огромное спасибо!
оединиться к документациипоскольку Hive поощряет использование неявных объединений, т.е. [https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Joins]Это эквивалентно SELECT * FROM table1 t1, table2 t2, table3 t3 WHERE t1.id = t2.id ...