Resultados de la búsqueda a petición "apache-pig"

6 la respuesta

Utilizando la cláusula IN con PIG FILTER

¿PIG admite la cláusula IN? filtered = FILTER bba BY reason not in ('a','b','c','d'); ¿o debería dividirlo en múltiples OR? ¡Gracias

2 la respuesta

Problema de permisos de Apache Pig

Estoy intentando poner en funcionamiento Apache Pig en mi clúster Hadoop y encuentro un problema de permisos. Pig se está iniciando y conectando al clúster muy bien, desde el interior de la carcasa de Pig, puedols a través y alrededor de mis ...

1 la respuesta

Filtrar una cadena sobre la base de una palabra

Tengo un trabajo de cerdo en el que necesito filtrar los datos encontrando una palabra, Aquí está el fragmento A = LOAD '/home/user/filename' USING PigStorage(','); B = FOREACH A GENERATE $27,$38; C = FILTER B BY ( $1 == '*Word*'); STORE C ...

3 la respuesta

¿Cómo hago para que Hadoop encuentre módulos Python importados cuando utilizo UDF de Python en Pig?

Estoy usando Pig (0.9.1) con UDF escritos en Python. Los scripts de Python importan módulos de la biblioteca estándar de Python. He podido ejecutar los scripts de Pig que llaman a las UDF de Python con éxito en modo local, pero cuando ejecuto en ...

3 la respuesta

Java o Pig regex para eliminar valores de la cadena de UserAgent

Necesito eliminar el tercer valor y los siguientes en el componente 'entre paréntesis' de la cadena del agente de usuario. Para obtene Mozilla / 4.0 (compatible; MSIE 8.0) desd Mozilla / 4.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident / ...

6 la respuesta

¿Cómo cargar archivos en el clúster hadoop usando apache pig?

Tengo un script de pig y necesito cargar archivos del clúster hadoop local. Puedo enumerar los archivos usando el comando hadoop: hadoop fs –ls / repo / mydata, `pero cuando intenté cargar archivos en script pig, falló. la declaración de carga ...

6 la respuesta

Cuáles son los pros y los contras de ejecutar un trabajo en Hadoop usando varios idiomas?

He estado usando Pig o Java para Map Reduce exclusivamente para ejecutar trabajos en un clúster Hadoop hasta ahora. Recientemente probé usando Python Map Reduce a través de la transmisión de Hadoop y eso también fue genial. Todo esto tiene ...

2 la respuesta

¿Cómo puedo dividir una tabla con HIVE?

He estado jugando con Hive durante algunos días, pero aún me cuesta mucho particionar. He estado grabando registros de Apache (formato combinado) en Hadoop durante unos meses. Se almacenan en formato de texto de fila, divididos por fecha ...

8 la respuesta

¿Cómo puedo incorporar el nombre de archivo de entrada actual en mi script Pig Latin?

Estoy procesando datos de un conjunto de archivos que contienen una marca de fecha como parte del nombre del archivo. Los datos dentro del archivo no contienen el sello de fecha. Me gustaría procesar el nombre de archivo y agregarlo a una de las ...

4 la respuesta

¿Guardar la salida en un solo CSV?

Actualmente, cuando ALMACENO en HDFS, crea muchos archivos parciales. ¿Hay alguna forma de almacenar en un solo archivo CSV?