Результаты поиска по запросу "hadoop"

2 ответа

Несколько выходов в редукторе

Я работаю над простой программой уменьшения карты. Я хочу создать разные файлы после редуктора для каждого слова в ключе. Например, после выполнения Mapreduce у меня что-то вроде Приоритет 1 х 2 Приоритет 1 год 2 Приоритет 1 z 2 приоритет2 х ...

7 ответов

Получить несколько строк данных HDFS

У меня есть2 GB данные в моемHDFS. Можно ли получить эти данные случайно. Как мы делаем в командной строке Unix cat iris2.csv |head -n 50

2 ответа

Maven - другая версия зависимости в тесте

Я страдаю от проблемы, похожей наMaven 2 - разные версии зависимостей в тесте и компиляции [https://stackoverflow.com/questions/6575742/maven-2-different-dependency-versions-in-test-and-compile] но указанный ответ там не работает. В моем проекте ...

ТОП публикаций

4 ответа

Как написать 'map only' задания hadoop?

Я новичок в Hadoop, я знакомлюсь со стилем программирования Map-Reduce, но теперь я столкнулся с проблемой: иногда мне нужно только карта для работы, и мне нужен только результат карты непосредственно в качестве вывода, что означает уменьшение ...

2 ответа

Разбор PDF-файлов в Hadoop Map Reduce

Я должен проанализировать PDF-файлы, которые находятся в HDFS, в программе уменьшения карты в Hadoop. Так что я получаю PDF файл из HDFS какВходные расщепления и он должен быть проанализирован и отправлен в Mapper Class. Для реализации этого ...

3 ответа

Как загрузить файлы на кластере Hadoop, используя Apache PIG?

У меня есть скрипт свиньи, и мне нужно загружать файлы из локального кластера hadoop. Я могу перечислить файлы с помощью команды hadoop: hadoop fs –ls / repo / mydata, `но когда я попытался загрузить файлы в сценарии pig, это не удалось. оператор ...

6 ответов

Ошибка в свинье при загрузке данных

Я использую Ubuntu 12.02 32bit и установилhadoop2.2.0а такжесвинья 0,12успешно. Hadoop правильно работает в моей системе. Однако всякий раз, когда я запускаю эту команду: data = load 'atoz.csv' using PigStorage(',') as (aa1:int, bb1:int, ...

3 ответа

Каковы плюсы и минусы работы в Hadoop с использованием разных языков?

До сих пор я использовал Pig или Java для Map Reduce исключительно для запуска заданий на кластере Hadoop. Недавно я попробовал использовать Python Map Reduce с помощью потоковой передачи Hadoop, и это было довольно круто. Все это имеет смысл для ...

1 ответ

Как я могу разбить таблицу с помощью HIVE?

Я играл с Hive уже несколько дней, но мне все еще трудно с разделом. Я записываю логи Apache (Combine format) в Hadoop в течение нескольких месяцев. Они хранятся в текстовом формате строки, разделены по дате (через flume): / logs / гггг / мм / ...

1 ответ

Репликация HDFS - данные хранятся

Я относительный новичок в hadoop и хочу лучше понять, как работает репликация в HDFS. Скажем, у меня есть система из 10 узлов (1 ТБ на каждый узел), что дает мне общую емкость 10 ТБ. Если у меня коэффициент репликации 3, то у меня есть ...