Результаты поиска по запросу "hdfs"

2 ответа

Получить файлы, которые были созданы за последние 5 минут в hadoop, используя скрипт оболочки

У меня есть файлы в HDFS как:

1 ответ

Искра нужна HDFS

Привет, кто-нибудь может мне объяснить, нужна ли Apache 'Spark Standalone' HDFS?Если требуется, как Spark использует размер блока HDFS во время выпол...

1 ответ

Spark: сохранение RDD по уже существующему пути в HDFS

Я могу сохранить вывод RDD в HDFS сsaveAsTextFile метод. Этот метод вызывает исключение, если путь к файлу уже существует.У меня есть случай, когда мне нужно...

ТОП публикаций

4 ответа

Добавление разделенной запятыми таблицы в Hive

У меня очень простой вопрос: как мне добавить очень простую таблицу в Hive. Моя таблица сохраняется в текстовом файле (.txt), который сохраняется в HDFS. Я п...

1 ответ

PySpark: чтение, отображение и сокращение из многострочного текстового файла записи с новым APIHadoopFile

Я пытаюсь решить проблему, похожую наэта почта, Мои исходные данные - это текстовый файл, который содержит значения (наблюдения) нескольких датчиков. Каждое ...

2 ответа

Как перечислить файлы в директории HDFS

Как мне перечислить файлы в каталоге HDFS? Это для перечисления файлов в кластере Apache Spark с использованием Scala. Я вижу, что есть опция sc.textfile (),...

3 ответа

Каковы плюсы и минусы формата паркета по сравнению с другими форматами?

2 ответа

Читайте целые текстовые файлы из сжатия в Spark

У меня следующая проблема: предположим, что у меня есть каталог, содержащий сжатые каталоги, которые содержат несколько файлов, хранящихся в HDFS. Я хочу соз...

1 ответ

Как разархивировать файлы, хранящиеся в HDFS с использованием Java, без предварительного копирования в локальную файловую систему?

Мы храним zip-файлы, содержащие XML-файлы, в HDFS. Нам необходимо иметь возможность программно разархивировать файл и вывести из него содержащиеся в нем XML-...

1 ответ

Cloudera 5.4.2: неверный или слишком большой размер блока Avro при использовании потоковой передачи Flume и Twitter

При попытке Cloudera 5.4.2 возникает крошечная проблема. Основываясь на этой статьеApache Flume - получение данных из Twitterhttp://www.tutorialspoint.com/ap...