Resultados de la búsqueda a petición "apache-spark-sql"

2 la respuesta

Spark SQL UDF con parámetro de entrada complejo

Estoy tratando de usar UDF con el tipo de entrada Array of struct. Tengo la siguiente estructura de datos, esto es solo una parte relevante de una estructura más grande |--investments: array (nullable = true) | |-- element: struct (containsNull ...

1 la respuesta

SparkSQL en tablas de HBase

Cualquiera está usando SparkSQL en tablas HBase directamente, como SparkSQL en tablas Hive. Soy nuevo en spark. Por favor, guíame cómo conectar hbase y spark. Cómo consultar en las tablas de hbase.

2 la respuesta

Cómo guardar / insertar cada DStream en una tabla permanente

He estado enfrentando un problema con "Spark Streaming" sobre la inserción de la salida Dstream en unpermanente Tabla SQL. Me gustaría insertar cada salida DStream (proveniente de un solo lote que genera procesos) en una tabla única. He estado ...

1 la respuesta

Renombrar elementos anidados en Scala Spark Dataframe

Tengo un marco de datos Spark Scala con una estructura anidada: |-- _History: struct (nullable = true) | |-- Article: array (nullable = true) | | |-- element: struct (containsNull = true) | | | |-- Id: string (nullable = true) | | | |-- ...

1 la respuesta

Lectura de varios archivos de S3 en Spark por período de fecha

DescripciónTengo una aplicación que envía datos a AWS Kinesis Firehose y los escribe en mi bucket de S3. Firehose utiliza el formato "aaaa / MM / dd / HH" para escribir los archivos. Como en este ejemplo de ruta ...

1 la respuesta

¿La consulta contra un Spark DataFrame basado en CSV es más rápida que una basada en Parquet?

Tengo que cargar un archivo CSV de HDFS usando Spark enDataFrame. Me preguntaba si hay una mejora en el "rendimiento" (velocidad de consulta) de un DataFrame respaldado por un archivo CSV frente a uno respaldado por un archivo de parquet. Por lo ...

2 la respuesta

Cómo filtrar el marco de datos de Spark si una columna es miembro de otra columna

Tengo un marco de datos con dos columnas (una cadena y una matriz de cadenas): root |-- user: string (nullable = true) |-- users: array (nullable = true) | |-- element: string (containsNull = true)¿Cómo puedo filtrar el marco de datos para que ...

4 la respuesta

¿Cómo seleccionar la última fila y también cómo acceder al marco de datos PySpark por índice?

Desde un marco de datos SQL PySpark como name age city abc 20 A def 30 BCómo obtener la última fila. (Al igual que df.limit (1) puedo obtener la primera fila del marco de datos en un nuevo marco de datos). ¿Y cómo puedo acceder a las filas del ...

1 la respuesta

Spark 2.0: ruta relativa en URI absoluto (almacén de chispas)

Estoy tratando de migrar de Spark 1.6.1 a Spark 2.0.0 y recibo un error extraño al intentar leer un archivo csv en SparkSQL. Anteriormente, cuando leía un archivo del disco local en pyspark, hacía: Spark 1.6 df = sqlContext.read \ ...

1 la respuesta

¿Cuál es una forma eficiente de particionar por columna pero mantener un conteo de partición fijo?

¿Cuál es la mejor manera de particionar los datos por un campo en un recuento de particiones predefinido? Actualmente estoy particionando los datos especificando partionCount = 600. Se encuentra que el conteo 600 ofrece el mejor rendimiento de ...