Результаты поиска по запросу "hadoop"
Псевдораспределенный режим Hadoop - Datanode и TaskTracker не запускаются
Я использую дистрибутив Red Hat Enterprise Linux Server версии 6.4 (Сантьяго) с установленным на нем Hadoop 1.1.2. Я сделал необходимые конфигурации, чтобы включить псевдораспределенный режим. Но при попытке запустить hadoop датодода и трекер не ...
Как получить массив / пакет элементов из группы Hive оператором?
Я хочу сгруппировать по заданному полю и получить вывод с сгруппированными полями. Ниже приведен пример того, чего я пытаюсь достичь: Представьте себе таблицу с именем sample_table с двумя столбцами, как показано ниже: F1 F2 001 111 001 222 001 ...
Используйте глобальную переменную в классе reudcer
Мне нужно использовать глобальную переменную в моей программе mapreduce, как установить ее в следующем коде и использовать глобальную переменную в редукторе. public class tfidf { public static tfidfMap.............. { } public ...
Как найти идентификатор работы Hadoop в коде?
У меня есть программа Hadoop, которая имеет цикл. На каждой итерации цикла создается задание. Как я могу найти идентификатор работы в коде?
Как отсортировать данные в карте уменьшить Hadoop?
Я работаю с программой, которая имеет 4 шага MapReduce. Результат моего первого шага: id value 1 20 2 3 3 9 4 36У меня есть около 1 000 000 идентификаторов, и на втором шаге я должен отсортировать значения. Вывод этого шага: id value 4 36 1 20 ...
Как лучше подходить для хранения и запроса большого набора данных метеорологических данных?
Я ищу удобный способ хранения и запроса огромного количества метеорологических данных (мало ТБ). Больше информации о типе данных в середине вопроса. Раньше я смотрел в сторону MongoDB (я использовал его для многих своих предыдущих проектов и ...
Hadoop - большие файлы в распределенном кеше
У меня есть файл размером 4 ГБ, который я пытаюсь открыть для всех картографов через распределенный кеш. Но я наблюдаю значительную задержку начала попытки задания карты. В частности, существует значительная задержка между временем отправки моей ...
В чем причина наличия записываемых классов-оболочек в Hadoop MapReduce для типов Java?
Мне кажется, чтоorg.apache.hadoop.io.serializer.Serialization может быть написан для сериализации типов Java напрямую в том же формате, в который классы-обертки сериализуют тип. Таким образом, Mappers и Reducers не должны иметь дело ...
обновление внешней таблицы Hive изменениями в HDFS
Допустим, я создал внешнюю таблицу Hive «myTable» из файла myFile.csv (находится в HDFS). myFile.csv меняется каждый день, тогда мне интересно также обновлять myTable один раз в день. Есть ли какой-нибудь HiveQL-запрос, который сообщает об ...
Как сериализовать объект Java в Hadoop?
Объект должен реализоватьWritable интерфейс для того, чтобы быть сериализованным при передаче в Hadoop. Возьми LuceneScoreDoc класс в качестве примера: public class ScoreDoc implements java.io.Serializable { /** The score of this document for ...