Результаты поиска по запросу "hadoop"
Установка уровня ведения журнала в Hadoop на WARN
Я пробовал множество способов установить уровень ведения журнала в Hadoop на WARN, но каждый раз терпел неудачу. Во-первых, я попытался настроить файл log4j.properties, просто заменив «INFO» на «WARN» везде. Безрезультатно. Затем я попытался ...
hadoop конвертирует \ r \ n в \ n и нарушает формат ARC
Я пытаюсь проанализировать данные с commoncrawl.org с помощью потоковой передачи hadoop. Я настроил локальный hadoop для тестирования своего кода, и у меня есть простой Ruby Mapper, который использует потоковый читатель ARCfile. Когда я вызываю ...
Медленные передачи в Jetty с частичным кодированием передачи при определенном размере буфера
Я исследую проблему с производительностью Jetty 6.1.26. Причал, кажется, использоватьTransfer-Encoding: chunkedи, в зависимости от используемого размера буфера, это может быть очень медленно при локальной передаче. Я создал небольшое тестовое ...
Как перечислить только имена файлов в HDFS
Я хотел бы знать, есть ли какая-либо команда / выражение, чтобы получить только имя файла в Hadoop. Мне нужно выбрать только имя файла, когда я делаюhadoop fs -ls это печатает весь путь. Я попробовал ниже, но просто интересно, есть ли лучший ...
JAVA_HOME не устанавливается
Работая надHadoopРеализация в псевдораспределенной операции, я обнаружил следующее исключениеJAVA_HOMEпеременная не установлена, но когда я попытался повторить ее, она была установлена. Переменная задана вconf/hadoop-env.sh (под ...
Как использовать Sqoop в программе Java?
Я знаю, как использовать sqoop через командную строку. Но не знаю, как вызвать команду sqoop с помощью Java-программ. Кто-нибудь может дать какой-то вид кода?
Как указать сопоставленные конфигурации и параметры java с помощью пользовательского jar в CLI с помощью Amazon EMR?
Я хотел бы знать, как указать конфигурации mapreduce, такие как mapred.task.timeout, mapred.min.split.sizeи т.д., при запуске потокового задания с использованием пользовательского jar. Мы можем использовать следующий способ, чтобы указать эти ...
Написание кода MApreduce для подсчета количества записей
Я хочу написать код mapreduce для подсчета количества записей в данном файле CSV. Я не понимаю, что делать на карте и что делать в сокращении. Как мне решить эту проблему, может кто-нибудь что-то предложить?
Как получить доступ и управлять данными PDF-файла в Hadoop?
Я хочу прочитать файл PDF, используя hadoop, как это возможно? Я только знаю, что hadoop может обрабатывать только txt-файлы, так что есть ли возможность проанализировать PDF-файлы в txt. Дайте мне предложение.
Фильтр HBase REST (SingleColumnValueFilter)
Я не могу понять, как использовать фильтры в интерфейсе HBase REST (HBase 0.90.4-cdh3u3). Документация просто дает мне определение схемы для «строки», но не показывает, как ее использовать. Итак, я могу сделать это: curl -v -H 'Content-Type: ...