Результаты поиска по запросу "mapreduce"
В этом случае мне нужно реализовать пользовательские RecordReader и InputFormat или есть какая-то реализация готова к использованию?
тоящее время я пишу распределенное приложение, которое анализирует файлы PDF с помощью Hadoop MapReduce. Входные данные для задания MapReduce - это тысячи файлов PDF (которые в основном имеют размер от 100 КБ до ~ 2 МБ), а выходные данные ...
Hadoop: можете ли вы использовать пару значений в качестве «ключа»?
Я пытаюсь проанализировать большой набор данных статистики преступлений, файл размером около 2 ГБ в формате CSV. Там около 20 столбцов, но меня интересует только подмножество: Crime_Type и Crime_in_Year. Например, преступление типа «кража со ...
Hadoop и Python: отключить сортировку
Я понял, что при запуске Hadoop с кодом Python либо преобразователь, либо преобразователь (не уверен, какой именно) сортирует мои выходные данные до того, как они будут распечатаныreducer.py, В настоящее время это, кажется, отсортировано ...
Размер блока данных в HDFS, почему 64 МБ?
Размер блока данных по умолчанию HDFS / hadoop составляет 64 МБ. Размер блока на диске обычно составляет 4 КБ. Что означает размер блока 64 МБ? -> Означает ли это, что наименьшая единица чтения с диска составляет 64 МБ? Если да, в чем ...
так назовите это так:
ользую рельсы 3 с монгоидом. У меня есть коллекция акций со встроенной коллекцией цен: class Stock include Mongoid::Document field :name, :type => String field :code, :type => Integer embeds_many :prices class Price include Mongoid::Document ...
YarnException: неавторизованный запрос на запуск контейнера
Я настроил hadoop2.2.0 на 3 кластера. Все идет хорошо. NodeManager и Datanode запускаются в каждом кластере. Но, когда я запускаю пример wordcount, происходит 100% -ое сопоставление, и оно дает следующее исключение: map 100% reduce 0% 13/11/28 ...
как ограничить количество картостроителей
Я явно указываю количество картографов в моей Java-программе, используяconf.setNumMapTasks(), но когда задание заканчивается, счетчик показывает, что количество запущенных задач карты было больше указанного значения. Как ограничить количество ...
Да, это было это! Ментальный сдвиг здесь заключался в том, что я мог группироваться по объекту, а не только по полю. В конечном счете, мы должны сделать запрос по скользящему окну дат. Но это дает мне именно то, что мне нужно. Еще раз спасибо!
есть сайт, который содержит потоковое видео, и мы хотим отобразить три отчета о самых просматриваемых видео за последнюю неделю, месяц и год (скользящее окно). Мы храним документ в ravendb каждый раз при просмотре видео: public class ...
помогите мне написать работу по уменьшению карты, используя мои заранее определенные доменные объекты
у начать с использования Avro с Map Reduce. Может ли кто-нибудь предложить хороший учебник / пример для начала. Я не мог найти много через поиск в Интернете.
Я знаю, что есть ограничение на количество дескрипторов файлов, но я ожидал, что мой алгоритм будет использовать самое большее количество потоков, созданных ghc, которое должно быть очень низким (по крайней мере, это является целью реализации)
лизую программу на Haskell, которая сравнивает каждую строку файла с каждой строкой в файле. Для простоты давайте предположим, что структура данных, представленная одной линией, является просто Int, а мой алгоритм - это квадрат расстояния. Это ...