Результаты поиска по запросу "hadoop"
Несколько выходов в редукторе
Я работаю над простой программой уменьшения карты. Я хочу создать разные файлы после редуктора для каждого слова в ключе. Например, после выполнения Mapreduce у меня что-то вроде Приоритет 1 х 2 Приоритет 1 год 2 Приоритет 1 z 2 приоритет2 х ...
Получить несколько строк данных HDFS
У меня есть2 GB данные в моемHDFS. Можно ли получить эти данные случайно. Как мы делаем в командной строке Unix cat iris2.csv |head -n 50
Maven - другая версия зависимости в тесте
Я страдаю от проблемы, похожей наMaven 2 - разные версии зависимостей в тесте и компиляции [https://stackoverflow.com/questions/6575742/maven-2-different-dependency-versions-in-test-and-compile] но указанный ответ там не работает. В моем проекте ...
Как написать 'map only' задания hadoop?
Я новичок в Hadoop, я знакомлюсь со стилем программирования Map-Reduce, но теперь я столкнулся с проблемой: иногда мне нужно только карта для работы, и мне нужен только результат карты непосредственно в качестве вывода, что означает уменьшение ...
Разбор PDF-файлов в Hadoop Map Reduce
Я должен проанализировать PDF-файлы, которые находятся в HDFS, в программе уменьшения карты в Hadoop. Так что я получаю PDF файл из HDFS какВходные расщепления и он должен быть проанализирован и отправлен в Mapper Class. Для реализации этого ...
Как загрузить файлы на кластере Hadoop, используя Apache PIG?
У меня есть скрипт свиньи, и мне нужно загружать файлы из локального кластера hadoop. Я могу перечислить файлы с помощью команды hadoop: hadoop fs –ls / repo / mydata, `но когда я попытался загрузить файлы в сценарии pig, это не удалось. оператор ...
Ошибка в свинье при загрузке данных
Я использую Ubuntu 12.02 32bit и установилhadoop2.2.0а такжесвинья 0,12успешно. Hadoop правильно работает в моей системе. Однако всякий раз, когда я запускаю эту команду: data = load 'atoz.csv' using PigStorage(',') as (aa1:int, bb1:int, ...
Каковы плюсы и минусы работы в Hadoop с использованием разных языков?
До сих пор я использовал Pig или Java для Map Reduce исключительно для запуска заданий на кластере Hadoop. Недавно я попробовал использовать Python Map Reduce с помощью потоковой передачи Hadoop, и это было довольно круто. Все это имеет смысл для ...
Как я могу разбить таблицу с помощью HIVE?
Я играл с Hive уже несколько дней, но мне все еще трудно с разделом. Я записываю логи Apache (Combine format) в Hadoop в течение нескольких месяцев. Они хранятся в текстовом формате строки, разделены по дате (через flume): / logs / гггг / мм / ...
Репликация HDFS - данные хранятся
Я относительный новичок в hadoop и хочу лучше понять, как работает репликация в HDFS. Скажем, у меня есть система из 10 узлов (1 ТБ на каждый узел), что дает мне общую емкость 10 ТБ. Если у меня коэффициент репликации 3, то у меня есть ...