Результаты поиска по запросу "hadoop-streaming"

2 ответа

Как указать разделитель для потоковой передачи hadoop

У меня есть пользовательский разделитель, как показано ниже: import java.util.*; import org.apache.hadoop.mapreduce.*; public static class SignaturePartitioner extends Partitioner<Text,Text> { @Override public int getPartition(Text key,Text ...

2 ответа

Как получить доступ и управлять данными PDF-файла в Hadoop?

Я хочу прочитать файл PDF, используя hadoop, как это возможно? Я только знаю, что hadoop может обрабатывать только txt-файлы, так что есть ли возможность проанализировать PDF-файлы в txt. Дайте мне предложение.

1 ответ

Команда hdfs устарела в hadoop

Как я следую нижеприведенной процедуре:http://www.codeproject.com/Articles/757934/Apache-Hadoop-for-Windows-Platform https://www.youtube.com/watch?v=VhxWig96...

ТОП публикаций

1 ответ

DiskErrorException на подчиненном компьютере - мультиузел Hadoop

Я пытаюсь обработать XML-файлы из hadoop, я получил следующую ошибку при вызове задания подсчета слов в XML-файлах. 13/07/25 12:39:57 INFO mapred.JobClient: Task Id : attempt_201307251234_0001_m_000008_0, Status : FAILED Too many ...

0 ответов

Смещение байта потокового преобразователя Hadoop не генерируется

2 ответа

Сводный стол с Apache Pig

4 ответа

Новый пользователь SSH hadoop

Установка Hadoop на кластер с одним узлом, любая идея, почему нам нужно создать следующее Зачем нам нужен SSH-доступ для нового пользователя? Почему он должен иметь возможность подключиться к своей учетной записи? Почему я должен указывать ...

4 ответа

Выполнение задания с использованием потоковой передачи hadoop и mrjob: PipeMapRed.waitOutputThreads (): не удалось выполнить подпроцесс с кодом 1

4 ответа

Выполнение задания с использованием потоковой передачи hadoop и mrjob: PipeMapRed.waitOutputThreads (): не удалось выполнить подпроцесс с кодом 1

Эй, я довольно новичок в мире больших данных. Я наткнулся на этот ...

4 ответа

Распакуйте файлы, используя потоковую передачу hadoop

У меня есть много файлов в HDFS, все они zip-файлы с одним CSV-файлом внутри. Я пытаюсь распаковать файлы, чтобы запустить потоковое задание для них. Я пытался: hadoop jar /usr/lib/hadoop-mapreduce/hadoop-streaming.jar \ ...