Результаты поиска по запросу "mapreduce"
hadoop конвертирует \ r \ n в \ n и нарушает формат ARC
Я пытаюсь проанализировать данные с commoncrawl.org с помощью потоковой передачи hadoop. Я настроил локальный hadoop для тестирования своего кода, и у меня есть простой Ruby Mapper, который использует потоковый читатель ARCfile. Когда я вызываю ...
Асинхронная запись в двоичный объект appengine и его завершение после завершения всех задач
У меня сложная проблема. Я перебираю набор URL-адресов, параметризованных по дате, и выбираю их. Например, вот пример одного: somewebservice.com?start=01-01-2012&end=01-10-2012 Иногда содержимое, возвращаемое из URL-адреса, усекается ...
Предел памяти, достигнутый с appengine-mapreduce
Я работаю над функцией appengine-mapreduce и изменил демо, чтобы соответствовать моей цели. В основном у меня есть миллион над строками в следующем формате: userid, time1, time2. Моя цель - найти разницу между временем1 и временем2 для каждого ...
Как указать сопоставленные конфигурации и параметры java с помощью пользовательского jar в CLI с помощью Amazon EMR?
Я хотел бы знать, как указать конфигурации mapreduce, такие как mapred.task.timeout, mapred.min.split.sizeи т.д., при запуске потокового задания с использованием пользовательского jar. Мы можем использовать следующий способ, чтобы указать эти ...
Написание кода MApreduce для подсчета количества записей
Я хочу написать код mapreduce для подсчета количества записей в данном файле CSV. Я не понимаю, что делать на карте и что делать в сокращении. Как мне решить эту проблему, может кто-нибудь что-то предложить?
Несколько входов с MRJob
Я пытаюсь научиться использовать Python API Yelp для MapReduce, MRJob. Их простой пример со счетчиком слов имеет смысл, но мне любопытно, как можно было бы обрабатывать приложение с несколькими входами. Например, вместо того, чтобы просто считать ...
Несколько выходов в редукторе
Я работаю над простой программой уменьшения карты. Я хочу создать разные файлы после редуктора для каждого слова в ключе. Например, после выполнения Mapreduce у меня что-то вроде Приоритет 1 х 2 Приоритет 1 год 2 Приоритет 1 z 2 приоритет2 х ...
Как написать 'map only' задания hadoop?
Я новичок в Hadoop, я знакомлюсь со стилем программирования Map-Reduce, но теперь я столкнулся с проблемой: иногда мне нужно только карта для работы, и мне нужен только результат карты непосредственно в качестве вывода, что означает уменьшение ...
Разбор PDF-файлов в Hadoop Map Reduce
Я должен проанализировать PDF-файлы, которые находятся в HDFS, в программе уменьшения карты в Hadoop. Так что я получаю PDF файл из HDFS какВходные расщепления и он должен быть проанализирован и отправлен в Mapper Class. Для реализации этого ...
Каковы плюсы и минусы работы в Hadoop с использованием разных языков?
До сих пор я использовал Pig или Java для Map Reduce исключительно для запуска заданий на кластере Hadoop. Недавно я попробовал использовать Python Map Reduce с помощью потоковой передачи Hadoop, и это было довольно круто. Все это имеет смысл для ...