Результаты поиска по запросу "apache-pig"

4 ответа

Ошибка подключения в Apache Pig

Я использую Apache Pig .11.1 с Hadoop 2.0.5. Большинство простых заданий, которые я выполняю в Pig, работают отлично. Однако всякий раз, когда я пытаюсь использовать GROUP BY для большого набора данных или оператора LIMIT, я получаю следующие ...

2 ответа

Преобразуйте сумку кортежей ключ-значение на карту в Apache Pig

Я новичок в Pig и хочу преобразовать пакет кортежей в карту с определенным значением в каждом кортеже в качестве ключа. В основном я хочу изменить: {(id1, value1),(id2, value2), ...} в[id1#value1, id2#value2] Некоторое время я искал онлайн, но ...

7 ответов

Свинья против Улья против Родной Карты Уменьшить

У меня есть общее представление о том, что такое абстракции Свинья, Улей. Но я не имею четкого представления о сценариях, которые требуют уменьшения Hive, Pig или native map. Я просмотрел несколько статей, в которых в основном говорится, что ...

ТОП публикаций

3 ответа

Как объединить группу в один кортеж в Pig?

Из этого: (1, {(1,2), (1,3), (1,4)} ) (2, {(2,5), (2,6), (2,7)} )... Как мы могли создать это? ((1,2),(1,3),(1,4)) ((2,5),(2,6),(2,7))... И как мы могли это сгенерировать? (1, 2, 3, 4) (2, 5, 6, 7)Для одного ряда я знаю, как это сделать. ...

6 ответов

 -files Аргумент files используется для распространения файлов через Hadoop Distributed Cache. В приведенном выше примере мы распространяем файл данных Max Mind Geo-IP через распределенный кэш Hadoop. Нам необходим доступ к файлу гео-IP-адресов Max Mind, чтобы сопоставить IP-адрес пользователя с соответствующей страной, регионом, городом и часовым поясом. API требует, чтобы файл данных присутствовал локально, что невозможно в распределенной среде обработки (нам не будет гарантировано, какие узлы в кластере будут обрабатывать данные). Для распространения соответствующих данных на узел обработки мы используем инфраструктуру распределенного кэша Hadoop. GenericOptionsParser и ToolRunner автоматически облегчают это, используя аргумент –file. Обратите внимание, что файл, который мы распространяем, должен быть доступен в облаке (HDFS). -libjars –libjars используется для распространения любых дополнительных зависимостей, необходимых для заданий map-Reduce. Как и файл данных, нам также необходимо скопировать зависимые библиотеки в узлы кластера, где будет выполняться задание. GenericOptionsParser и ToolRunner автоматически облегчают это, используя аргумент –libjars.

кст этого вопроса заключается в том, что я пытаюсь использовать Java Java API maxmind в сценарии свиньи, который я написал ... Однако я не думаю, что знание того или другого необходимо для ответа на вопрос. API maxmind имеет конструктор, который ...

2 ответа

Свинья: загрузка файла данных с использованием внешнего файла схемы

У меня есть файл данных и соответствующий файл схемы, хранящиеся в разных местах. Я хотел бы загрузить данные, используя схему в файле схемы. Я пытался с помощью A= LOAD '<file path>' USING PigStorage('\u0001') as '<schema-file path>'но получите ...

7 ответов

Пример :

я есть много файлов журнала gzip'd в s3, который имеет 3 типа строк журнала: b, c, i. i и c оба являются одноуровневыми json: {"this":"that","test":"4"}Тип b глубоко вложенный json. Я сталкивался с ...

1 ответ

Спасибо - я знал, что должен быть простой способ сделать это.

я есть набор записей, которые я загружаю из файла, и первое, что мне нужно сделать, это получить максимум и минимум столбца. В SQL я бы сделал это с помощью подзапроса, как это: select c.state, c.population, (select max(c.population) from ...

3 ответа

Свинья и Кассандра и DataStax разделение контроля

Я использовал Pig со своими данными Cassandra, чтобы совершать всевозможные удивительные подвиги группировок, которые было бы практически невозможно написать настоятельно. Я использую интеграцию DataStax с Hadoop & Cassandra, и должен сказать, ...

1 ответ

Забавно, но именно так я и реализовал свою команду STRSPLIT (). Только после попытки разбить его на точку с запятой я столкнулся с той же проблемой.

я есть следующий кортеж H1, и я хочу strsplit его $ 0 в кортеж. Однако я всегда получаю сообщение об ошибке: DUMP H1: (item32;item31;,1) m = FOREACH H1 GENERATE STRSPLIT($0, ";", 50);ОШИБКА 1000: ошибка при разборе. Лексическая ошибка в строке ...