Результаты поиска по запросу "hadoop"

3 ответа

Псевдораспределенный режим Hadoop - Datanode и TaskTracker не запускаются

Я использую дистрибутив Red Hat Enterprise Linux Server версии 6.4 (Сантьяго) с установленным на нем Hadoop 1.1.2. Я сделал необходимые конфигурации, чтобы включить псевдораспределенный режим. Но при попытке запустить hadoop датодода и трекер не ...

2 ответа

Как получить массив / пакет элементов из группы Hive оператором?

Я хочу сгруппировать по заданному полю и получить вывод с сгруппированными полями. Ниже приведен пример того, чего я пытаюсь достичь: Представьте себе таблицу с именем sample_table с двумя столбцами, как показано ниже: F1 F2 001 111 001 222 001 ...

3 ответа

Используйте глобальную переменную в классе reudcer

Мне нужно использовать глобальную переменную в моей программе mapreduce, как установить ее в следующем коде и использовать глобальную переменную в редукторе. public class tfidf { public static tfidfMap.............. { } public ...

ТОП публикаций

1 ответ

Как найти идентификатор работы Hadoop в коде?

У меня есть программа Hadoop, которая имеет цикл. На каждой итерации цикла создается задание. Как я могу найти идентификатор работы в коде?

1 ответ

Как отсортировать данные в карте уменьшить Hadoop?

Я работаю с программой, которая имеет 4 шага MapReduce. Результат моего первого шага: id value 1 20 2 3 3 9 4 36У меня есть около 1 000 000 идентификаторов, и на втором шаге я должен отсортировать значения. Вывод этого шага: id value 4 36 1 20 ...

2 ответа

Как лучше подходить для хранения и запроса большого набора данных метеорологических данных?

Я ищу удобный способ хранения и запроса огромного количества метеорологических данных (мало ТБ). Больше информации о типе данных в середине вопроса. Раньше я смотрел в сторону MongoDB (я использовал его для многих своих предыдущих проектов и ...

1 ответ

Hadoop - большие файлы в распределенном кеше

У меня есть файл размером 4 ГБ, который я пытаюсь открыть для всех картографов через распределенный кеш. Но я наблюдаю значительную задержку начала попытки задания карты. В частности, существует значительная задержка между временем отправки моей ...

1 ответ

В чем причина наличия записываемых классов-оболочек в Hadoop MapReduce для типов Java?

Мне кажется, чтоorg.apache.hadoop.io.serializer.Serialization может быть написан для сериализации типов Java напрямую в том же формате, в который классы-обертки сериализуют тип. Таким образом, Mappers и Reducers не должны иметь дело ...

2 ответа

обновление внешней таблицы Hive изменениями в HDFS

Допустим, я создал внешнюю таблицу Hive «myTable» из файла myFile.csv (находится в HDFS). myFile.csv меняется каждый день, тогда мне интересно также обновлять myTable один раз в день. Есть ли какой-нибудь HiveQL-запрос, который сообщает об ...

2 ответа

Как сериализовать объект Java в Hadoop?

Объект должен реализоватьWritable интерфейс для того, чтобы быть сериализованным при передаче в Hadoop. Возьми LuceneScoreDoc класс в качестве примера: public class ScoreDoc implements java.io.Serializable { /** The score of this document for ...