Результаты поиска по запросу "apache-pig"

3 ответа

Как загрузить файлы на кластере Hadoop, используя Apache PIG?

У меня есть скрипт свиньи, и мне нужно загружать файлы из локального кластера hadoop. Я могу перечислить файлы с помощью команды hadoop: hadoop fs –ls / repo / mydata, `но когда я попытался загрузить файлы в сценарии pig, это не удалось. оператор ...

6 ответов

Ошибка в свинье при загрузке данных

Я использую Ubuntu 12.02 32bit и установилhadoop2.2.0а такжесвинья 0,12успешно. Hadoop правильно работает в моей системе. Однако всякий раз, когда я запускаю эту команду: data = load 'atoz.csv' using PigStorage(',') as (aa1:int, bb1:int, ...

3 ответа

Каковы плюсы и минусы работы в Hadoop с использованием разных языков?

До сих пор я использовал Pig или Java для Map Reduce исключительно для запуска заданий на кластере Hadoop. Недавно я попробовал использовать Python Map Reduce с помощью потоковой передачи Hadoop, и это было довольно круто. Все это имеет смысл для ...

ТОП публикаций

1 ответ

Как я могу разбить таблицу с помощью HIVE?

Я играл с Hive уже несколько дней, но мне все еще трудно с разделом. Я записываю логи Apache (Combine format) в Hadoop в течение нескольких месяцев. Они хранятся в текстовом формате строки, разделены по дате (через flume): / logs / гггг / мм / ...

4 ответа

Как я могу включить текущее имя входного файла в мой скрипт Pig Latin?

Я обрабатываю данные из набора файлов, которые содержат штамп даты как часть имени файла. Данные в файле не содержат отметку даты. Я хотел бы обработать имя файла и добавить его к одной из структур данных в сценарии. Есть ли способ сделать это в ...

2 ответа

СОХРАНИТЬ вывод на один CSV?

В настоящее время, когда я храню HDFS, он создает много файлов деталей. Есть ли способ сохранить в один файл CSV?

1 ответ

Ошибка схемы JsonLoader по умолчанию для свиньи

У меня есть данные ниже, которые должны быть проанализированы с помощью свиньи Данные { "Name": "BBQ Chicken", "Sizes": [ { "Size": "Large", "Price": 14.99 }, { "Size": "Medium", "Price": 12.99 } ], "Toppings": [ "Barbecue Sauce", ...

1 ответ

Как вы улучшаете производительность в работе со свиньями, у которой есть очень искаженные данные?

Я запускаю сценарий PIG, который выполняет GROUP BY и вложенный FOREACH, выполнение которого занимает несколько часов из-за одной или двух задач сокращения. Например: B = GROUP A BY (fld1, fld2) parallel 50; C = FOREACH B { U = A.fld1; DIST ...

2 ответа

Сохранить результат в локальном файле

Я запускаю скрипт Свинья и выполняю несколько сложных операций, а размер вывода очень маленький. Теперь я бегу hadoop fs -getmerge ...отдельно. Любой способ позволить сценарию свиньи свалить результат непосредственно в локальный файл?

2 ответа

UDF Pig работает в AWS EMR с java.lang.NoClassDefFoundError: org / apache / pig / LoadFunc

Я разрабатываю приложение, которое пытается прочитать файл журнала, хранящийся в долларах S3, и проанализировать его с помощью Elastic MapReduce. Текущий файл журнала имеет следующий формат ------------------------------- COLOR=Black ...