Resultados de la búsqueda a petición "apache-spark"
pyspark: haga partición de manera eficiente Al escribir en el mismo número de particiones totales que la tabla original
Tuve una pregunta relacionada con pyspark'srepartitionBy()unción @ que publiqué originalmente en un comentario enesta ...
count valores en varias columnas que contienen una subcadena basada en cadenas de listas pyspark
Tengo un marco de datos enPyspark como abajo. Quierocountalores @ en dos columnas basadas en algunoslists y llenar nuevas columnas para cadalist df.show() +---+-------------+-------------_+ | id| device| ...
¿Cómo configurar correctamente el programador y las piscinas de la feria de chispas?
Estoy ejecutando una prueba simple de aplicación de chispa, que lee un año de datos y escribe la misma cantidad de datos en Hive, divididos por día. Antes de escribir, combino en 15 particiones cada archivo, para no tener muchos archivos pequeños ...
a operación @RDD collect () falla con el error "Ningún módulo llamado pyspark"
Estoy intentando ejecutar la operación de recopilación a continuación en RDD, creada a partir de Pyspark Dataframe (obj_filter): obj_filter.rdd.map(lambda l: (l[0],l[1],l[2])).collect()Aquí hay algunas observaciones de obj_filter, ...
Cómo analizar XML en Spark con java si las etiquetas de las columnas tienen el mismo nombre
ntenté analizar XML en spark 2.2 con java 1.8, pero esto no está dando el conjunto de datos esperado. sample xml - <?xml version="1.0" encoding="UTF-8"?> <RECORD> <PROP NAME="product.url"> <PVAL>url1</PVAL> </PROP> <PROP NAME="product.id"> ...
SBT Error de prueba: java.lang.NoSuchMethodError: net.jpountz.lz4.LZ4BlockInputStream
Obtener debajo de la excepción, cuando traté de realizar pruebas unitarias para mi código de transmisión de chispa en ventanas SBT usando scalatest. sbt testOnly<<ClassName>> * * * * * * 2018-06-18 02:39:00 ERROR Ejecutor: 91 - Excepción en ...
¿Cómo crear un Spark UDF en Java / Kotlin que devuelve un tipo complejo?
Estoy intentando escribir un UDF que devuelve un tipo complejo: private val toPrice = UDF1<String, Map<String, String>> { s -> val elements = s.split(" ") mapOf("value" to elements[0], "currency" to elements[1]) } val type = ...
Spark: Dibuja la curva de aprendizaje de un modelo con spark
Estoy usando Spark y me gustaría entrenar un modelo de aprendizaje automático. Debido a los malos resultados, me gustaría mostrar el error cometido por el modelo en cada época de la capacitación (en el tren y el conjunto de datos ...
Parking scala Json en el marco de datos
Sample Json "alternateId": [ { "type": "POPID", "value": "1-7842-0759-001" }, { "type": "CAMID", "value": "CAMID 0000-0002-7EC1-02FF-O-0000-0000-2" }, { "type": "ProgrammeUuid", "value": "1ddb01e2-6146-4e10-bba9-dde40d0ad886" } ] ...
Alcanzar concurrencia al guardar en un archivo de parquet particionado
Al escribir undataframe aparquet utilizandopartitionBy : df.write.partitionBy("col1","col2","col3").parquet(path) Sería mi expectativa que cada partición que se está escribiendo se hiciera independientemente por una tarea separada y en paralelo ...