Результаты поиска по запросу "hadoop"

3 ответа

Просто пытаясь понять, чтобы сохранить файл в HDFS напрямую, разве нам не нужна потоковая передача в искре? СДР можно создать из существующего файла, распараллелить и т. Д. Но для этого файл должен присутствовать в HDFS или любой поддерживаемой ФС. Я предполагаю, что его вопрос заключается в том, чтобы сохранить файлы из запроса POST, для которых лучше использовать flume или flafka. Просьба уточнить. Спасибо

ли сохранять файлы в Hadoop, не сохраняя их в локальной файловой системе? Я хотел бы сделать что-то, как показано ниже, однако я хотел бы сохранить файл непосредственно в HDFS. На данный момент я сохраняю файлы в каталоге документов и только ...

1 ответ

В этом случае мне нужно реализовать пользовательские RecordReader и InputFormat или есть какая-то реализация готова к использованию?

тоящее время я пишу распределенное приложение, которое анализирует файлы PDF с помощью Hadoop MapReduce. Входные данные для задания MapReduce - это тысячи файлов PDF (которые в основном имеют размер от 100 КБ до ~ 2 МБ), а выходные данные ...

2 ответа

Hadoop: можете ли вы использовать пару значений в качестве «ключа»?

Я пытаюсь проанализировать большой набор данных статистики преступлений, файл размером около 2 ГБ в формате CSV. Там около 20 столбцов, но меня интересует только подмножество: Crime_Type и Crime_in_Year. Например, преступление типа «кража со ...

ТОП публикаций

2 ответа

Hadoop и Python: отключить сортировку

Я понял, что при запуске Hadoop с кодом Python либо преобразователь, либо преобразователь (не уверен, какой именно) сортирует мои выходные данные до того, как они будут распечатаныreducer.py, В настоящее время это, кажется, отсортировано ...

2 ответа

Поведение параметра «mapred.min.split.size» в HDFS

Параметр «mapred.min.split.size» изменяет размер блока, в который файл был записан ранее? Предполагая ситуацию, когда я при запуске своей JOB передаю параметр «mapred.min.split.size» со значением 134217728 (128 МБ). Что правильно сказать о том, ...

1 ответ

Я изменил его после журнала ошибок и отлично работает задание MapReduce (локально и кластер в псевдораспределенном режиме)

аюсь настроить запуск Hadoop в Mac OS сbrew, Предпринятые шаги приведены ниже, устанавливатьhadoop с командой,$brew install hadoopВнутри папкиusr/local/Cellar/hadoop/3.1.0/libexec/etc/hadoop и добавил команды в файлhadoop-env.sh, export ...

8 ответов

JAVA _Home не установлен в Hadoop

Я новичок в hadoop и пытаюсь установить и запустить hadoop в своей Ubuntu как кластер с одним узлом. Это мой JAVA_HOME в моем hadoop_env.sh # The java implementation to use. export JAVA_HOME=/usr/lib/jvm/java-7-openjdk-i386/ ...

3 ответа

Преобразование из FSDataInputStream в FileInputStream

Я немного новичок в Hadoop HDFS и довольно хорошо разбираюсь в Java, и мне нужна помощь. Я пытаюсь прочитать файл из HDFS и вычислить MD5-хэш этого файла. Общая конфигурация Hadoop приведена ниже. private FSDataInputStream hdfsDIS; private ...

8 ответов

Размер блока данных в HDFS, почему 64 МБ?

Размер блока данных по умолчанию HDFS / hadoop составляет 64 МБ. Размер блока на диске обычно составляет 4 КБ. Что означает размер блока 64 МБ? -> Означает ли это, что наименьшая единица чтения с диска составляет 64 МБ? Если да, в чем ...

1 ответ

Отлично! стратегия ограничителя сделала свое дело! :) Я также попробую использовать процессор MergeRecord и протестировать его. Спасибо за помощь @Shu

я есть поток ниже, настроенный для чтения данных JSON и преобразовать его в CSV с помощью процессора convertRecord. Тем не менее, выходной файл потока заполняется только одной записью(Я предполагаю только первую запись) вместо ...