Результаты поиска по запросу "apache-pig"

3 ответа

как включить внешний JAR-файл, используя PIG

2 ответа

Локальный режим, группа или join = java.lang.OutOfMemoryError: пространство кучи Java

С помощьюApache Pig версия 0.10.1.21(сообщается), выпуск CentOS 6.3 (окончательный вариант), jdk1.6.0_31 (Песочница Hortonworks v1.2 в Virtualbox, с 3,5 ГБ ОЗУ) $ cat data.txt 11,11,22 33,34,35 47,0,21 33,6,51 56,6,11 11,25,67 $ cat GrpTest.pig ...

1 ответ

Фильтровать строку на основе слова

У меня есть свиная работа, где мне нужно отфильтровать данные, найдя в них слово, Вот фрагмент A = LOAD '/home/user/filename' USING PigStorage(','); B = FOREACH A GENERATE $27,$38; C = FILTER B BY ( $1 == '*Word*'); STORE C INTO ...

ТОП публикаций

4 ответа

Ошибка подключения в Apache Pig

2 ответа

Преобразуйте сумку кортежей ключ-значение на карту в Apache Pig

Я новичок в Pig и хочу преобразовать пакет кортежей в карту с определенным значением в каждом кортеже в качестве ключа. В основном я хочу изменить: {(id1, value1),(id2, value2), ...} в[id1#value1, id2#value2] Некоторое время я искал онлайн, но ...

6 ответов

 -files Аргумент files используется для распространения файлов через Hadoop Distributed Cache. В приведенном выше примере мы распространяем файл данных Max Mind Geo-IP через распределенный кэш Hadoop. Нам необходим доступ к файлу гео-IP-адресов Max Mind, чтобы сопоставить IP-адрес пользователя с соответствующей страной, регионом, городом и часовым поясом. API требует, чтобы файл данных присутствовал локально, что невозможно в распределенной среде обработки (нам не будет гарантировано, какие узлы в кластере будут обрабатывать данные). Для распространения соответствующих данных на узел обработки мы используем инфраструктуру распределенного кэша Hadoop. GenericOptionsParser и ToolRunner автоматически облегчают это, используя аргумент –file. Обратите внимание, что файл, который мы распространяем, должен быть доступен в облаке (HDFS). -libjars –libjars используется для распространения любых дополнительных зависимостей, необходимых для заданий map-Reduce. Как и файл данных, нам также необходимо скопировать зависимые библиотеки в узлы кластера, где будет выполняться задание. GenericOptionsParser и ToolRunner автоматически облегчают это, используя аргумент –libjars.

кст этого вопроса заключается в том, что я пытаюсь использовать Java Java API maxmind в сценарии свиньи, который я написал ... Однако я не думаю, что знание того или другого необходимо для ответа на вопрос. API maxmind имеет конструктор, который ...

1 ответ

 создать этот каталог.

аюсь запустить Apache Pig на своем кластере Hadoop и столкнулся с проблемой разрешений. Сама Pig запускается и подключается к кластеру просто из оболочки Pig, я могуls через и вокруг моих каталогов HDFS. Однако, когда я пытаюсь загрузить данные и ...

2 ответа

Как получить массив / пакет элементов из группы Hive оператором?

Я хочу сгруппировать по заданному полю и получить вывод с сгруппированными полями. Ниже приведен пример того, чего я пытаюсь достичь:Представьте себе таблицу...

3 ответа

Как объединить группу в один кортеж в Pig?

Из этого: (1, {(1,2), (1,3), (1,4)} ) (2, {(2,5), (2,6), (2,7)} )... Как мы могли создать это? ((1,2),(1,3),(1,4)) ((2,5),(2,6),(2,7))... И как мы могли это сгенерировать? (1, 2, 3, 4) (2, 5, 6, 7)Для одного ряда я знаю, как это сделать. ...

2 ответа

Свинья: загрузка файла данных с использованием внешнего файла схемы

У меня есть файл данных и соответствующий файл схемы, хранящиеся в разных местах. Я хотел бы загрузить данные, используя схему в файле схемы. Я пытался с помощью A= LOAD '<file path>' USING PigStorage('\u0001') as '<schema-file path>'но получите ...