Результаты поиска по запросу "apache-pig"

Я использую Apache Pig .11.1 с Hadoop 2.0.5. Большинство простых заданий, которые я выполняю в Pig, работают отлично. Однако всякий раз, когда я пытаюсь использовать GROUP BY для большого набора данных или оператора LIMIT, я получаю следующие ...

map

2 ответа

Преобразуйте сумку кортежей ключ-значение на карту в Apache Pig

Я новичок в Pig и хочу преобразовать пакет кортежей в карту с определенным значением в каждом кортеже в качестве ключа. В основном я хочу изменить: {(id1, value1),(id2, value2), ...} в[id1#value1, id2#value2] Некоторое время я искал онлайн, но ...

mapreduce hive hadoop

7 ответов

Свинья против Улья против Родной Карты Уменьшить

У меня есть общее представление о том, что такое абстракции Свинья, Улей. Но я не имею четкого представления о сценариях, которые требуют уменьшения Hive, Pig или native map. Я просмотрел несколько статей, в которых в основном говорится, что ...

ТОП публикаций

How to write controller in Odoo 12

EHR Software Development: What you need to know [SPDLoad Full Guide]

Любимый шрифт свинки Пеппы и как его сделать

10 Food Delivery Startups to Watch for in 2020

hadoop

3 ответа

Как объединить группу в один кортеж в Pig?

Из этого: (1, {(1,2), (1,3), (1,4)} ) (2, {(2,5), (2,6), (2,7)} )... Как мы могли создать это? ((1,2),(1,3),(1,4)) ((2,5),(2,6),(2,7))... И как мы могли это сгенерировать? (1, 2, 3, 4) (2, 5, 6, 7)Для одного ряда я знаю, как это сделать. ...

jar hadoop java

6 ответов

-files Аргумент files используется для распространения файлов через Hadoop Distributed Cache. В приведенном выше примере мы распространяем файл данных Max Mind Geo-IP через распределенный кэш Hadoop. Нам необходим доступ к файлу гео-IP-адресов Max Mind, чтобы сопоставить IP-адрес пользователя с соответствующей страной, регионом, городом и часовым поясом. API требует, чтобы файл данных присутствовал локально, что невозможно в распределенной среде обработки (нам не будет гарантировано, какие узлы в кластере будут обрабатывать данные). Для распространения соответствующих данных на узел обработки мы используем инфраструктуру распределенного кэша Hadoop. GenericOptionsParser и ToolRunner автоматически облегчают это, используя аргумент –file. Обратите внимание, что файл, который мы распространяем, должен быть доступен в облаке (HDFS). -libjars –libjars используется для распространения любых дополнительных зависимостей, необходимых для заданий map-Reduce. Как и файл данных, нам также необходимо скопировать зависимые библиотеки в узлы кластера, где будет выполняться задание. GenericOptionsParser и ToolRunner автоматически облегчают это, используя аргумент –libjars.

кст этого вопроса заключается в том, что я пытаюсь использовать Java Java API maxmind в сценарии свиньи, который я написал ... Однако я не думаю, что знание того или другого необходимо для ответа на вопрос. API maxmind имеет конструктор, который ...

gruntjs schema load

2 ответа

Свинья: загрузка файла данных с использованием внешнего файла схемы

У меня есть файл данных и соответствующий файл схемы, хранящиеся в разных местах. Я хотел бы загрузить данные, используя схему в файле схемы. Я пытался с помощью A= LOAD '<file path>' USING PigStorage('\u0001') as '<schema-file path>'но получите ...

json

7 ответов

Пример :

я есть много файлов журнала gzip'd в s3, который имеет 3 типа строк журнала: b, c, i. i и c оба являются одноуровневыми json: {"this":"that","test":"4"}Тип b глубоко вложенный json. Я сталкивался с ...

hadoop

1 ответ

Спасибо - я знал, что должен быть простой способ сделать это.

я есть набор записей, которые я загружаю из файла, и первое, что мне нужно сделать, это получить максимум и минимум столбца. В SQL я бы сделал это с помощью подзапроса, как это: select c.state, c.population, (select max(c.population) from ...

cassandra datastax-enterprise hadoop datastax

3 ответа

Свинья и Кассандра и DataStax разделение контроля

Я использовал Pig со своими данными Cassandra, чтобы совершать всевозможные удивительные подвиги группировок, которые было бы практически невозможно написать настоятельно. Я использую интеграцию DataStax с Hadoop & Cassandra, и должен сказать, ...

1 ответ

Забавно, но именно так я и реализовал свою команду STRSPLIT (). Только после попытки разбить его на точку с запятой я столкнулся с той же проблемой.

я есть следующий кортеж H1, и я хочу strsplit его $ 0 в кортеж. Однако я всегда получаю сообщение об ошибке: DUMP H1: (item32;item31;,1) m = FOREACH H1 GENERATE STRSPLIT($0, ";", 50);ОШИБКА 1000: ошибка при разборе. Лексическая ошибка в строке ...

Страница 8 из 11

6 789 10

Результаты поиска по запросу "apache-pig"

Ошибка подключения в Apache Pig

Преобразуйте сумку кортежей ключ-значение на карту в Apache Pig

Свинья против Улья против Родной Карты Уменьшить

Популярные теги

ТОП публикаций

Как объединить группу в один кортеж в Pig?

Свинья: загрузка файла данных с использованием внешнего файла схемы

Пример :

Спасибо - я знал, что должен быть простой способ сделать это.

Свинья и Кассандра и DataStax разделение контроля

Забавно, но именно так я и реализовал свою команду STRSPLIT (). Только после попытки разбить его на точку с запятой я столкнулся с той же проблемой.

Вы очень активны! Это здорово!

Результаты поиска по запросу "apache-pig"

Популярные теги

ТОП публикаций