Результаты поиска по запросу "hdfs"
Получить файлы, которые были созданы за последние 5 минут в hadoop, используя скрипт оболочки
У меня есть файлы в HDFS как:
Искра нужна HDFS
Привет, кто-нибудь может мне объяснить, нужна ли Apache 'Spark Standalone' HDFS?Если требуется, как Spark использует размер блока HDFS во время выпол...
Spark: сохранение RDD по уже существующему пути в HDFS
Я могу сохранить вывод RDD в HDFS сsaveAsTextFile метод. Этот метод вызывает исключение, если путь к файлу уже существует.У меня есть случай, когда мне нужно...
Добавление разделенной запятыми таблицы в Hive
У меня очень простой вопрос: как мне добавить очень простую таблицу в Hive. Моя таблица сохраняется в текстовом файле (.txt), который сохраняется в HDFS. Я п...
PySpark: чтение, отображение и сокращение из многострочного текстового файла записи с новым APIHadoopFile
Я пытаюсь решить проблему, похожую наэта почта, Мои исходные данные - это текстовый файл, который содержит значения (наблюдения) нескольких датчиков. Каждое ...
Как перечислить файлы в директории HDFS
Как мне перечислить файлы в каталоге HDFS? Это для перечисления файлов в кластере Apache Spark с использованием Scala. Я вижу, что есть опция sc.textfile (),...
Читайте целые текстовые файлы из сжатия в Spark
У меня следующая проблема: предположим, что у меня есть каталог, содержащий сжатые каталоги, которые содержат несколько файлов, хранящихся в HDFS. Я хочу соз...
Как разархивировать файлы, хранящиеся в HDFS с использованием Java, без предварительного копирования в локальную файловую систему?
Мы храним zip-файлы, содержащие XML-файлы, в HDFS. Нам необходимо иметь возможность программно разархивировать файл и вывести из него содержащиеся в нем XML-...
Cloudera 5.4.2: неверный или слишком большой размер блока Avro при использовании потоковой передачи Flume и Twitter
При попытке Cloudera 5.4.2 возникает крошечная проблема. Основываясь на этой статьеApache Flume - получение данных из Twitterhttp://www.tutorialspoint.com/ap...