Результаты поиска по запросу "hdfs"

1 ответ

Не уверен, где в вопросе упоминается Hadoop 2.6

ал похожий вопрос некоторое время назад, но тогда я не знал, о чем говорю. Я отправляю этот вопрос с более подробной информацией и точными запросами. Итак, я настроил кластер hadoop с namenode и 2 датодинами. Я использую hadoop 2.9.0. Я запустил ...

4 ответа

Но это не будет писать ни одного файла с расширением CSV. Он создаст папку с part-m-0000n из n разделов вашего набора данных.

ключен к кластеру с помощьюssh и я отправляю программу в кластер используя spark-submit --master yarn myProgram.pyЯ хочу сохранить результат в текстовом файле, и я попытался использовать следующие ...

2 ответа

Установка fs.default.name в core-site.xml Устанавливает HDFS в безопасный режим

Я установил дистрибутив Cloudera CDH4 на одной машине в псевдораспределенном режиме и успешно проверил, что он работает правильно (например, может запускать программы MapReduce, вставлять данные на сервер Hive и т. Д.). Однако, если ...

ТОП публикаций

2 ответа

@ OmarAli Конечно, это работает. Внешний или управляемый, не имеет значения. Единственная разница между внешним и управляемым - это поведение таблицы DROP. Управляемая таблица DROP также удалит данные. При удалении внешней таблицы удаляется только определение таблицы. Также вы можете создать несколько разных таблиц поверх одного и того же каталога в HDFS одновременно.

ьшинстве вопросов / ответов по SO и в Интернете обсуждается использование Hive для объединения нескольких небольших файлов ORC в более крупный, однако мои файлы ORC - это файлы журнала, которые разделены по дням, и мне нужно хранить их отдельно. ...

1 ответ

 паркет без формата

ользуюИскровым Java. Мне нужно знать, есть ли разница (производительность и т. Д.) Между следующими методами записи в Hadoop: ds.write().mode(mode).format("orc").save(path);Или же ds.write().mode(mode).orc(path);Благодарю.

3 ответа

Просто пытаясь понять, чтобы сохранить файл в HDFS напрямую, разве нам не нужна потоковая передача в искре? СДР можно создать из существующего файла, распараллелить и т. Д. Но для этого файл должен присутствовать в HDFS или любой поддерживаемой ФС. Я предполагаю, что его вопрос заключается в том, чтобы сохранить файлы из запроса POST, для которых лучше использовать flume или flafka. Просьба уточнить. Спасибо

ли сохранять файлы в Hadoop, не сохраняя их в локальной файловой системе? Я хотел бы сделать что-то, как показано ниже, однако я хотел бы сохранить файл непосредственно в HDFS. На данный момент я сохраняю файлы в каталоге документов и только ...

2 ответа

Поведение параметра «mapred.min.split.size» в HDFS

Параметр «mapred.min.split.size» изменяет размер блока, в который файл был записан ранее? Предполагая ситуацию, когда я при запуске своей JOB передаю параметр «mapred.min.split.size» со значением 134217728 (128 МБ). Что правильно сказать о том, ...

1 ответ

Я изменил его после журнала ошибок и отлично работает задание MapReduce (локально и кластер в псевдораспределенном режиме)

аюсь настроить запуск Hadoop в Mac OS сbrew, Предпринятые шаги приведены ниже, устанавливатьhadoop с командой,$brew install hadoopВнутри папкиusr/local/Cellar/hadoop/3.1.0/libexec/etc/hadoop и добавил команды в файлhadoop-env.sh, export ...

8 ответов

Размер блока данных в HDFS, почему 64 МБ?

Размер блока данных по умолчанию HDFS / hadoop составляет 64 МБ. Размер блока на диске обычно составляет 4 КБ. Что означает размер блока 64 МБ? -> Означает ли это, что наименьшая единица чтения с диска составляет 64 МБ? Если да, в чем ...

1 ответ

Надеюсь, это поможет!

аюсь настроить HDFS на мини-кубе (на данный момент), а затем на кластере DEV kubernetes, чтобы я мог использовать его со Spark. Я хочу, чтобы Spark запускался локально на моей машине, чтобы я мог работать в режиме отладки во время разработки, ...