Resultados de la búsqueda a petición "apache-spark"
Apache Spark lee para S3: no puede encurtir objetos thread.lock
Así que quiero que mi aplicación Spark lea algún texto del S3 de Amazon. Escribí el siguiente script simple: import boto3 s3_client = boto3.client('s3') text_keys = ["key1.txt", "key2.txt"] data = sc.parallelize(text_keys).flatMap(lambda ...
¿Cuál es el tamaño máximo para un objeto de difusión en Spark?
Cuando use Dataframeemisión [http://spark.apache.org/docs/2.0.0/api/java/org/apache/spark/sql/functions.html#broadcast(org.apache.spark.sql.Dataset)] función o el ...
Iterar un RDD y actualizar una colección mutable devuelve una colección vacía
Soy nuevo en Scala y Spark y me gustaría recibir ayuda para comprender por qué el siguiente código no produce el resultado deseado. Estoy comparando dos tablas Mi esquema de salida deseado es: case class DiscrepancyData(fieldKey:String, ...
Anteponer ceros a un valor en PySpark
Tengo un marco de datosdf : val1 val2 val3 271 70 151 213 1 379 213 3 90 213 6 288 20 55 165Quiero transformar este marco de datos como: val1 val2 val3 271 70 0151 213 01 0379 213 03 0090 213 06 0288 020 55 0165¿Cómo puedo hacer eso en pyspark? ...
¿Cómo usar una colección de difusión en una udf?
Cómo usar una colección de difusión en Spark SQL 1.6.1 udf. Se debe llamar a Udf desde el SQL principal como se muestra a continuación sqlContext.sql("""Select col1,col2,udf_1(key) as value_from_udf FROM table_a""") udf_1() debería mirar a ...
Especificar el nombre de archivo al guardar un DataFrame como CSV [duplicado]
Esta pregunta ya tiene una respuesta aquí: Spark dataframe guardar en un solo archivo en la ubicación hdfs [duplicado] [/questions/40792434/spark-dataframe-save-in-single-file-on-hdfs-location] 1 respuestaDigamos que tengo un Spark DF que quiero ...
Error de PySpark: AttributeError: el objeto 'NoneType' no tiene el atributo '_jvm'
Tengo un conjunto de datos de marca de tiempo que está en formato de Y he escrito un udf en pyspark para procesar este conjunto de datos y devolverlo como Mapa de valores clave. Pero me estoy poniendo debajo del mensaje de error. Conjunto de ...
¿Es posible establecer variables globales en un cuaderno Zeppelin?
Estoy tratando de crear un panel de varios párrafos usando un cuaderno Zeppelin. Me gustaría que las personas que usan el tablero solo tengan que ingresar ciertos parámetros una vez. P.ej. Si estoy haciendo un tablero con información sobre ...
Devuelve Seq [Row] desde Spark-Scala UDF
Estoy usando Spark con Scala para hacer un procesamiento de datos. Tengo datos XML asignados al marco de datos. Estoy pasando una fila como parámetro a la UDF e intento extraer dos objetos de tipos complejos como una lista. Spark me está dando el ...
El esquema para el tipo Any no es compatible
Estoy tratando de crear una chispa UDF para extraer un mapa de pares (clave, valor) de una clase de caso definida por el usuario. La función de escala parece funcionar bien, pero cuando trato de convertir eso a un UDF en spark2.0, me encuentro ...