Resultados de la búsqueda a petición "hadoop"

1 la respuesta

Leer múltiples archivos de un directorio usando Spark

Estoy tratando de resolver estoproblema [https://www.kaggle.com/c/axa-driver-telematics-analysis]en kaggle usando chispa: La jerarquía de entrada es así: drivers/{driver_id}/trip#.csv e.g., drivers/1/1.csv drivers/1/2.csv drivers/2/1.csvQuiero ...

4 la respuesta

Colmena: ¿hay alguna manera de optimizar aún más una consulta HiveQL?

He escrito una consulta para encontrar los 10 aeropuertos más concurridos en los EE. UU. De marzo a abril. Produce el resultado deseado, sin embargo, quiero intentar optimizarlo aún más. ¿Hay alguna optimización específica de HiveQL que se pueda ...

3 la respuesta

R: Crear un CSV a partir de objetos serializados

Estoy tratando de tomar una lista y serializar cada elemento y ponerlo en un archivo CSV con una clave para crear un archivo de texto con pares clave / valor. En última instancia, esto se ejecutará a través de la transmisión de Hadoop, así que ...

1 la respuesta

¿Cómo se puede llamar a PySpark en modo de depuración?

Tengo IntelliJ IDEA configurado con Apache Spark 1.4. Quiero poder agregar puntos de depuración a mis scripts de Spark Python para poder depurarlos fácilmente. Actualmente estoy ejecutando este bit de Python para inicializar el proceso ...

1 la respuesta

¿Diferencia entre los vectores de chispa y el vector inmutable de escala?

Estoy escribiendo un proyecto para Spark 1.4 en Scala y actualmente estoy entre convertir mis datos de entrada iniciales enspark.mllib.linalg.Vectors yscala.immutable.Vector con el que luego quiero trabajar en mi algoritmo. ¿Podría alguien ...

3 la respuesta

Hadoop en Windows Edificio / Error de instalación

Estoy tratando de instalarApache Hadoop 2.7.1 [https://hadoop.apache.org/]en Windows x64 (8.1 y Server 2012 R2), pero estoy fallando en el objetivo: [INFO] Apache Hadoop Common ............................... FAILURE [ 37.925 s] En los últimos ...

2 la respuesta

Colmena - Operador LIKE

No puedo entender cómo trato ese problema: Esta es mi información: Table1: Table2: BRAND PRODUCT SOLD Sony Sony ABCD 1233 Apple Sony adv 1233 Google Sony aaaa 1233 IBM Apple 123 1233 etc. Apple 345 1233 IBM 13123 1233¿Es posible filtrar la ...

2 la respuesta

Hadoop / Hive Collect_list sin repetir elementos

Según la publicación,Colmena 0.12 - Collect_list [https://stackoverflow.com/questions/6445339/collect-set-in-hive-keep-duplicates] , Estoy tratando de ubicar el código Java para implementar un UDAF que logre esta funcionalidad u otra similar pero ...

1 la respuesta

Encontrar el mayor valor para la clave

Quiero descubrir el país más grande con mayor área. mi conjunto de datos es el siguiente Afghanistan 648 Albania 29 Algeria 2388 Andorra 0 Austria 84 Bahrain 1 Bangladesh 143 Belgium 31 Benin 113 Bhutan 47 Brunei 6 Bulgaria 111 Burma ...

5 la respuesta

Guarde el marco de datos de Spark como una tabla particionada dinámica en Hive

Tengo una aplicación de muestra que trabaja para leer archivos csv en un marco de datos. El marco de datos se puede almacenar en una tabla Hive en formato de parquet utilizando el métododf.saveAsTable(tablename,mode). El código anterior funciona ...