Результаты поиска по запросу "mapreduce"

1 ответ

hadoop конвертирует \ r \ n в \ n и нарушает формат ARC

Я пытаюсь проанализировать данные с commoncrawl.org с помощью потоковой передачи hadoop. Я настроил локальный hadoop для тестирования своего кода, и у меня есть простой Ruby Mapper, который использует потоковый читатель ARCfile. Когда я вызываю ...

3 ответа

Асинхронная запись в двоичный объект appengine и его завершение после завершения всех задач

У меня сложная проблема. Я перебираю набор URL-адресов, параметризованных по дате, и выбираю их. Например, вот пример одного: somewebservice.com?start=01-01-2012&end=01-10-2012 Иногда содержимое, возвращаемое из URL-адреса, усекается ...

2 ответа

Предел памяти, достигнутый с appengine-mapreduce

Я работаю над функцией appengine-mapreduce и изменил демо, чтобы соответствовать моей цели. В основном у меня есть миллион над строками в следующем формате: userid, time1, time2. Моя цель - найти разницу между временем1 и временем2 для каждого ...

ТОП публикаций

2 ответа

Как указать сопоставленные конфигурации и параметры java с помощью пользовательского jar в CLI с помощью Amazon EMR?

Я хотел бы знать, как указать конфигурации mapreduce, такие как mapred.task.timeout, mapred.min.split.sizeи т.д., при запуске потокового задания с использованием пользовательского jar. Мы можем использовать следующий способ, чтобы указать эти ...

6 ответов

Написание кода MApreduce для подсчета количества записей

Я хочу написать код mapreduce для подсчета количества записей в данном файле CSV. Я не понимаю, что делать на карте и что делать в сокращении. Как мне решить эту проблему, может кто-нибудь что-то предложить?

4 ответа

Несколько входов с MRJob

Я пытаюсь научиться использовать Python API Yelp для MapReduce, MRJob. Их простой пример со счетчиком слов имеет смысл, но мне любопытно, как можно было бы обрабатывать приложение с несколькими входами. Например, вместо того, чтобы просто считать ...

2 ответа

Несколько выходов в редукторе

Я работаю над простой программой уменьшения карты. Я хочу создать разные файлы после редуктора для каждого слова в ключе. Например, после выполнения Mapreduce у меня что-то вроде Приоритет 1 х 2 Приоритет 1 год 2 Приоритет 1 z 2 приоритет2 х ...

4 ответа

Как написать 'map only' задания hadoop?

Я новичок в Hadoop, я знакомлюсь со стилем программирования Map-Reduce, но теперь я столкнулся с проблемой: иногда мне нужно только карта для работы, и мне нужен только результат карты непосредственно в качестве вывода, что означает уменьшение ...

2 ответа

Разбор PDF-файлов в Hadoop Map Reduce

Я должен проанализировать PDF-файлы, которые находятся в HDFS, в программе уменьшения карты в Hadoop. Так что я получаю PDF файл из HDFS какВходные расщепления и он должен быть проанализирован и отправлен в Mapper Class. Для реализации этого ...

3 ответа

Каковы плюсы и минусы работы в Hadoop с использованием разных языков?

До сих пор я использовал Pig или Java для Map Reduce исключительно для запуска заданий на кластере Hadoop. Недавно я попробовал использовать Python Map Reduce с помощью потоковой передачи Hadoop, и это было довольно круто. Все это имеет смысл для ...