Resultados de la búsqueda a petición "apache-spark-sql"

1 la respuesta

Devolución de múltiples matrices de la función agregada definida por el usuario (UDAF) en Apache Spark SQL

Estoy tratando de crear una función agregada definida por el usuario (UDAF) en Java usando Apache Spark SQL que devuelve múltiples matrices al finalizar. He buscado en línea y no puedo encontrar ningún ejemplo o sugerencia sobre ...

2 la respuesta

Las tablas de la colmena no se encuentran cuando se ejecuta en modo YARN-Cluster

Tengo una aplicación Spark (versión 1.4.1) en HDP 2.3. Funciona bien cuando se ejecuta en modo YARN-Client. Sin embargo, cuando se ejecuta en modo YARN-Cluster, la aplicación no puede encontrar ninguna de mis tablas de Hive. Presento la ...

2 la respuesta

Cómo cambiar el nombre de los campos en un DataFrame correspondiente a JSON anidado

Estoy tratando de procesar eventos JSON recibidos en una aplicación móvil (como clics, etc.) usandospark 1.5.2. Existen múltiples versiones de aplicaciones y la estructura de los eventos varía según las versiones. Digamos que la versión 1 tiene ...

1 la respuesta

Spark 1.5.1 no funciona con la colmena jdbc 1.2.0

Estoy tratando de ejecutar la consulta de la colmena usando spark 1.5.1 en modo independiente y la versión 1.2.0 jdbc de la colmena. Aquí está mi pieza de código: private static final String HIVE_DRIVER = ...

2 la respuesta

Aplicar la misma función a todos los campos de la fila de trama de datos de chispa

Tengo un marco de datos en el que tengo aproximadamente 1000 columnas (variables). Quiero hacer que todos los valores sean mayúsculas. Este es el enfoque en el que he pensado, ¿puede sugerir si esta es la mejor manera? Tomar filaEncuentre el ...

3 la respuesta

¿Cómo agregar valores en la colección después de groupBy?

Tengo un marco de datos con esquema como tal: [visitorId: string, trackingIds: array<string>, emailIds: array<string>]¿Está buscando una forma de agrupar (o quizás acumular?) Este marco de datos por visitante donde las columnas trackingIds y ...

2 la respuesta

PySpark 1.5 Cómo truncar la marca de tiempo al minuto más cercano desde segundos

Estoy usando PySpark. Tengo una columna ('dt') en un marco de datos ('canon_evt') que es una marca de tiempo. Estoy tratando de eliminar segundos de un valor DateTime. Originalmente se lee desde el parquet como una cadena. Luego trato de ...

2 la respuesta

Spark agrega una nueva columna al marco de datos con el valor de la fila anterior

Me pregunto cómo puedo lograr lo siguiente en Spark (Pyspark) Marco de datos inicial: +--+---+ |id|num| +--+---+ |4 |9.0| +--+---+ |3 |7.0| +--+---+ |2 |3.0| +--+---+ |1 |5.0| +--+---+Marco de datos resultante: +--+---+-------+ ...

1 la respuesta

pyspark divide una columna en varias columnas sin pandas

Mi pregunta es cómo dividir una columna en varias columnas. No se porquedf.toPandas() No funciona. Por ejemplo, me gustaría cambiar 'df_test' a 'df_test2'. Vi muchos ejemplos usando el módulo pandas. ¿Hay otra manera? Gracias de ...

1 la respuesta

Spark SQL: carga de archivos csv / psv con algunos registros mal formados

Estamos cargando jerarquías de directorios de archivos con Spark y convirtiéndolos a Parquet. Hay decenas de gigabytes en cientos de archivos separados por tuberías. Algunos son bastante grandes ellos mismos. Cada, digamos, el archivo número 100 ...