Результаты поиска по запросу "apache-pig"
Как загрузить файлы на кластере Hadoop, используя Apache PIG?
У меня есть скрипт свиньи, и мне нужно загружать файлы из локального кластера hadoop. Я могу перечислить файлы с помощью команды hadoop: hadoop fs –ls / repo / mydata, `но когда я попытался загрузить файлы в сценарии pig, это не удалось. оператор ...
Ошибка в свинье при загрузке данных
Я использую Ubuntu 12.02 32bit и установилhadoop2.2.0а такжесвинья 0,12успешно. Hadoop правильно работает в моей системе. Однако всякий раз, когда я запускаю эту команду: data = load 'atoz.csv' using PigStorage(',') as (aa1:int, bb1:int, ...
Каковы плюсы и минусы работы в Hadoop с использованием разных языков?
До сих пор я использовал Pig или Java для Map Reduce исключительно для запуска заданий на кластере Hadoop. Недавно я попробовал использовать Python Map Reduce с помощью потоковой передачи Hadoop, и это было довольно круто. Все это имеет смысл для ...
Как я могу разбить таблицу с помощью HIVE?
Я играл с Hive уже несколько дней, но мне все еще трудно с разделом. Я записываю логи Apache (Combine format) в Hadoop в течение нескольких месяцев. Они хранятся в текстовом формате строки, разделены по дате (через flume): / logs / гггг / мм / ...
Как я могу включить текущее имя входного файла в мой скрипт Pig Latin?
Я обрабатываю данные из набора файлов, которые содержат штамп даты как часть имени файла. Данные в файле не содержат отметку даты. Я хотел бы обработать имя файла и добавить его к одной из структур данных в сценарии. Есть ли способ сделать это в ...
СОХРАНИТЬ вывод на один CSV?
В настоящее время, когда я храню HDFS, он создает много файлов деталей. Есть ли способ сохранить в один файл CSV?
Ошибка схемы JsonLoader по умолчанию для свиньи
У меня есть данные ниже, которые должны быть проанализированы с помощью свиньи Данные { "Name": "BBQ Chicken", "Sizes": [ { "Size": "Large", "Price": 14.99 }, { "Size": "Medium", "Price": 12.99 } ], "Toppings": [ "Barbecue Sauce", ...
Как вы улучшаете производительность в работе со свиньями, у которой есть очень искаженные данные?
Я запускаю сценарий PIG, который выполняет GROUP BY и вложенный FOREACH, выполнение которого занимает несколько часов из-за одной или двух задач сокращения. Например: B = GROUP A BY (fld1, fld2) parallel 50; C = FOREACH B { U = A.fld1; DIST ...
Сохранить результат в локальном файле
Я запускаю скрипт Свинья и выполняю несколько сложных операций, а размер вывода очень маленький. Теперь я бегу hadoop fs -getmerge ...отдельно. Любой способ позволить сценарию свиньи свалить результат непосредственно в локальный файл?
UDF Pig работает в AWS EMR с java.lang.NoClassDefFoundError: org / apache / pig / LoadFunc
Я разрабатываю приложение, которое пытается прочитать файл журнала, хранящийся в долларах S3, и проанализировать его с помощью Elastic MapReduce. Текущий файл журнала имеет следующий формат ------------------------------- COLOR=Black ...