Resultados de la búsqueda a petición "apache-spark-sql"

1 la respuesta

¿Cuál es una forma eficiente de particionar por columna pero mantener un conteo de partición fijo?

¿Cuál es la mejor manera de particionar los datos por un campo en un recuento de particiones predefinido? Actualmente estoy particionando los datos especificando partionCount = 600. Se encuentra que el conteo 600 ofrece el mejor rendimiento de ...

2 la respuesta

Diferencia entre === null y isNull en Spark DataDrame

Estoy un poco confundido con la diferencia cuando estamos usando df.filter(col("c1") === null) and df.filter(col("c1").isNull)El mismo marco de datos que obtengo cuenta en === nulo pero cero cuenta en isNull. Por favor, ayúdame a entender la ...

2 la respuesta

Cambiar el prefijo de nombre de archivo de salida para DataFrame.write ()

Los archivos de salida generados a través del método Spark SQL DataFrame.write () comienzan con el prefijo de nombre base "parte". p.ej. DataFrame sample_07 = ...

4 la respuesta

¿Cómo convertir DataFrame a Json?

Tengo un gran archivo Json, una pequeña parte de la siguiente manera: { "socialNews": [{ "adminTagIds": "", "fileIds": "", "departmentTagIds": "", ........ ........ "comments": [{ "commentId": "", "newsId": "", "entityId": "", .... .... }] }] ...

1 la respuesta

Crear Spark DataFrame. No se puede inferir el esquema para el tipo: <type 'float'>

¿Podría alguien ayudarme a resolver este problema que tengo con Spark DataFrame? Cuando lo hagomyFloatRDD.toDF() Me sale un error: TypeError: no se puede inferir el esquema para el tipo: escriba 'float' No entiendo porque ...

2 la respuesta

obtener valor del marco de datos

En Scala puedo hacerget(#) ogetAs[Type](#) para obtener valores de un marco de datos. ¿Cómo debo hacerlo enpyspark? Tengo un DataFrame de dos columnas:item(string) ysalesNum(integers). hago ungroupby ymean para obtener una media de esos números ...

2 la respuesta

Spark SQL UDF con parámetro de entrada complejo

Estoy tratando de usar UDF con el tipo de entrada Array of struct. Tengo la siguiente estructura de datos, esto es solo una parte relevante de una estructura más grande |--investments: array (nullable = true) | |-- element: struct (containsNull ...

1 la respuesta

Cómo usar el valor constante en UDF de Spark SQL (DataFrame)

Tengo un marco de datos que incluyetimestamp. Para agregar por tiempo (minuto, hora o día), he intentado como: val toSegment = udf((timestamp: String) => { val asLong = timestamp.toLong asLong - asLong % 3600000 // period = 1 hour }) val df: ...

6 la respuesta

Calcular la duración restando dos columnas de fecha y hora en formato de cadena

Tengo un Spark Dataframe que consta de una serie de fechas: from pyspark.sql import SQLContext from pyspark.sql import Row from pyspark.sql.types import * sqlContext = SQLContext(sc) import pandas as pd rdd ...

2 la respuesta

Problema de memoria con transmisión estructurada por chispa

Estoy enfrentando problemas de memoria al ejecutar una secuencia estructurada con agregación y particionamiento en Spark 2.2.0: session .readStream() .schema(inputSchema) .option(OPTION_KEY_DELIMITER, OPTION_VALUE_DELIMITER_TAB) ...