Resultados de la búsqueda a petición "apache-spark"

2 la respuesta

Apache Spark lee para S3: no puede encurtir objetos thread.lock

Así que quiero que mi aplicación Spark lea algún texto del S3 de Amazon. Escribí el siguiente script simple: import boto3 s3_client = boto3.client('s3') text_keys = ["key1.txt", "key2.txt"] data = sc.parallelize(text_keys).flatMap(lambda ...

1 la respuesta

¿Cuál es el tamaño máximo para un objeto de difusión en Spark?

Cuando use Dataframeemisión [http://spark.apache.org/docs/2.0.0/api/java/org/apache/spark/sql/functions.html#broadcast(org.apache.spark.sql.Dataset)] función o el ...

2 la respuesta

Iterar un RDD y actualizar una colección mutable devuelve una colección vacía

Soy nuevo en Scala y Spark y me gustaría recibir ayuda para comprender por qué el siguiente código no produce el resultado deseado. Estoy comparando dos tablas Mi esquema de salida deseado es: case class DiscrepancyData(fieldKey:String, ...

1 la respuesta

Anteponer ceros a un valor en PySpark

Tengo un marco de datosdf : val1 val2 val3 271 70 151 213 1 379 213 3 90 213 6 288 20 55 165Quiero transformar este marco de datos como: val1 val2 val3 271 70 0151 213 01 0379 213 03 0090 213 06 0288 020 55 0165¿Cómo puedo hacer eso en pyspark? ...

1 la respuesta

¿Cómo usar una colección de difusión en una udf?

Cómo usar una colección de difusión en Spark SQL 1.6.1 udf. Se debe llamar a Udf desde el SQL principal como se muestra a continuación sqlContext.sql("""Select col1,col2,udf_1(key) as value_from_udf FROM table_a""") udf_1() debería mirar a ...

1 la respuesta

Especificar el nombre de archivo al guardar un DataFrame como CSV [duplicado]

Esta pregunta ya tiene una respuesta aquí: Spark dataframe guardar en un solo archivo en la ubicación hdfs [duplicado] [/questions/40792434/spark-dataframe-save-in-single-file-on-hdfs-location] 1 respuestaDigamos que tengo un Spark DF que quiero ...

3 la respuesta

Error de PySpark: AttributeError: el objeto 'NoneType' no tiene el atributo '_jvm'

Tengo un conjunto de datos de marca de tiempo que está en formato de Y he escrito un udf en pyspark para procesar este conjunto de datos y devolverlo como Mapa de valores clave. Pero me estoy poniendo debajo del mensaje de error. Conjunto de ...

2 la respuesta

¿Es posible establecer variables globales en un cuaderno Zeppelin?

Estoy tratando de crear un panel de varios párrafos usando un cuaderno Zeppelin. Me gustaría que las personas que usan el tablero solo tengan que ingresar ciertos parámetros una vez. P.ej. Si estoy haciendo un tablero con información sobre ...

2 la respuesta

Devuelve Seq [Row] desde Spark-Scala UDF

Estoy usando Spark con Scala para hacer un procesamiento de datos. Tengo datos XML asignados al marco de datos. Estoy pasando una fila como parámetro a la UDF e intento extraer dos objetos de tipos complejos como una lista. Spark me está dando el ...

1 la respuesta

El esquema para el tipo Any no es compatible

Estoy tratando de crear una chispa UDF para extraer un mapa de pares (clave, valor) de una clase de caso definida por el usuario. La función de escala parece funcionar bien, pero cuando trato de convertir eso a un UDF en spark2.0, me encuentro ...