Результаты поиска по запросу "hadoop"

0 ответов

Разобрать повторяющиеся теги XML в Hive

я используюhivexmlserde для анализа XML-файлов. Я анализирую некоторые повторяющиеся теги в моем XML и сохраняю их какмассив <строка>. Результат, котор...

0 ответов

Спасибо

0 ответов

Собственный накопитель строк был очень полезен для выявления поврежденных входных файлов.

ли читать pdf / аудио / видео файлы (неструктурированные данные) с помощью Apache Spark? Например, у меня есть тысячи счетов в формате PDF, и я хочу прочитать данные из них и провести некоторую аналитику по этому вопросу. Какие шаги я должен ...

ТОП публикаций

0 ответов

 условие предотвращает ложные срабатывания. (2) 2 части UNION ALL представляют 2 сдвинутые шкалы. Смотрите обновленный ответ

ужен запрос на улей, который мне сложно понять. У меня есть временной ряд, который выглядит так: time source word1 word2 ...etc 2012-02-01 23:43:16.9988243 0001 2B3B FAF0 2012-02-01 23:43:16.9993561 0002 2326 ABAA 2012-02-01 23:43:16.9998879 ...

0 ответов

 подписать слева от ответа

оложим, у меня в настоящее время есть таблица, в которой по 1 строке для каждой учетной записи, а данные в таблицах: Номер аккаунтаДата началаДата окончанияТеперь я хотел бы создать новую таблицу, в которой по 1 строке для каждого дня открытия ...

0 ответов

Примечание: проверьте, что $ HADOOP_HOME / etc / hadoop является правильным в вашей среде. И spark-env.sh также содержит экспорт HADOOP_HOME.

аюсь запустить Spark, используя пряжу, и я сталкиваюсь с этой ошибкой: Исключение в потоке "main" java.lang.Exception: При работе с главной 'yarn' в среде должен быть установлен либо HADOOP_CONF_DIR, либо YARN_CONF_DIR. Я не уверен, где ...

0 ответов

 используется для определения разделов задач фреймворка. обычно применяется для операций RDD.

разница междуspark.sql.shuffle.partitions а такжеspark.default.parallelism? Я пытался установить их обоих вSparkSQL, но номер задачи второго этапа всегда 200.

0 ответов

@ cricket_007 Поддерживает ли --files копирование папок произвольной структуры вложенности? Я не мог подтвердить это.

трю, как скопировать папку с файлами зависимостей ресурсов из HDFS в локальный рабочий каталог каждого искрового исполнителя с использованием Java. Сначала я думал об использовании опции --files FILES в spark-submit, но, похоже, она не ...

0 ответов

Тогда все просто работает. Вам не нужно (а может и не нужно) менять

аюсь поиграть с набором данных Google Ngrams, используя Amazon Elastic Map Reduce. Есть публичный набор данных на http://aws.amazon.com/datasets/8172056142375670 [http://aws.amazon.com/datasets/8172056142375670]и я хочу использовать ...

0 ответов

Опять же, есть ли отдельные исполнители, выполняющие больше работы, чем другие?

аю строку длиной более 100 Кбайт и разделяю столбцы по ширине. У меня есть около 16K столбцов, которые я разделил сверху строки на основе ширины. но при записи в паркет я использую код ниже rdd1=spark.sparkContext.textfile("file1") { var now=0 ...