Результаты поиска по запросу "hdfs"
Не уверен, где в вопросе упоминается Hadoop 2.6
ал похожий вопрос некоторое время назад, но тогда я не знал, о чем говорю. Я отправляю этот вопрос с более подробной информацией и точными запросами. Итак, я настроил кластер hadoop с namenode и 2 датодинами. Я использую hadoop 2.9.0. Я запустил ...
Но это не будет писать ни одного файла с расширением CSV. Он создаст папку с part-m-0000n из n разделов вашего набора данных.
ключен к кластеру с помощьюssh и я отправляю программу в кластер используя spark-submit --master yarn myProgram.pyЯ хочу сохранить результат в текстовом файле, и я попытался использовать следующие ...
Установка fs.default.name в core-site.xml Устанавливает HDFS в безопасный режим
Я установил дистрибутив Cloudera CDH4 на одной машине в псевдораспределенном режиме и успешно проверил, что он работает правильно (например, может запускать программы MapReduce, вставлять данные на сервер Hive и т. Д.). Однако, если ...
@ OmarAli Конечно, это работает. Внешний или управляемый, не имеет значения. Единственная разница между внешним и управляемым - это поведение таблицы DROP. Управляемая таблица DROP также удалит данные. При удалении внешней таблицы удаляется только определение таблицы. Также вы можете создать несколько разных таблиц поверх одного и того же каталога в HDFS одновременно.
ьшинстве вопросов / ответов по SO и в Интернете обсуждается использование Hive для объединения нескольких небольших файлов ORC в более крупный, однако мои файлы ORC - это файлы журнала, которые разделены по дням, и мне нужно хранить их отдельно. ...
паркет без формата
ользуюИскровым Java. Мне нужно знать, есть ли разница (производительность и т. Д.) Между следующими методами записи в Hadoop: ds.write().mode(mode).format("orc").save(path);Или же ds.write().mode(mode).orc(path);Благодарю.
Просто пытаясь понять, чтобы сохранить файл в HDFS напрямую, разве нам не нужна потоковая передача в искре? СДР можно создать из существующего файла, распараллелить и т. Д. Но для этого файл должен присутствовать в HDFS или любой поддерживаемой ФС. Я предполагаю, что его вопрос заключается в том, чтобы сохранить файлы из запроса POST, для которых лучше использовать flume или flafka. Просьба уточнить. Спасибо
ли сохранять файлы в Hadoop, не сохраняя их в локальной файловой системе? Я хотел бы сделать что-то, как показано ниже, однако я хотел бы сохранить файл непосредственно в HDFS. На данный момент я сохраняю файлы в каталоге документов и только ...
Поведение параметра «mapred.min.split.size» в HDFS
Параметр «mapred.min.split.size» изменяет размер блока, в который файл был записан ранее? Предполагая ситуацию, когда я при запуске своей JOB передаю параметр «mapred.min.split.size» со значением 134217728 (128 МБ). Что правильно сказать о том, ...
Я изменил его после журнала ошибок и отлично работает задание MapReduce (локально и кластер в псевдораспределенном режиме)
аюсь настроить запуск Hadoop в Mac OS сbrew, Предпринятые шаги приведены ниже, устанавливатьhadoop с командой,$brew install hadoopВнутри папкиusr/local/Cellar/hadoop/3.1.0/libexec/etc/hadoop и добавил команды в файлhadoop-env.sh, export ...
Размер блока данных в HDFS, почему 64 МБ?
Размер блока данных по умолчанию HDFS / hadoop составляет 64 МБ. Размер блока на диске обычно составляет 4 КБ. Что означает размер блока 64 МБ? -> Означает ли это, что наименьшая единица чтения с диска составляет 64 МБ? Если да, в чем ...
Надеюсь, это поможет!
аюсь настроить HDFS на мини-кубе (на данный момент), а затем на кластере DEV kubernetes, чтобы я мог использовать его со Spark. Я хочу, чтобы Spark запускался локально на моей машине, чтобы я мог работать в режиме отладки во время разработки, ...