Resultados de la búsqueda a petición "apache-spark"

1 la respuesta

pyspark: haga partición de manera eficiente Al escribir en el mismo número de particiones totales que la tabla original

Tuve una pregunta relacionada con pyspark'srepartitionBy()unción @ que publiqué originalmente en un comentario enesta ...

1 la respuesta

count valores en varias columnas que contienen una subcadena basada en cadenas de listas pyspark

Tengo un marco de datos enPyspark como abajo. Quierocountalores @ en dos columnas basadas en algunoslists y llenar nuevas columnas para cadalist df.show() +---+-------------+-------------_+ | id| device| ...

0 la respuesta

¿Cómo configurar correctamente el programador y las piscinas de la feria de chispas?

Estoy ejecutando una prueba simple de aplicación de chispa, que lee un año de datos y escribe la misma cantidad de datos en Hive, divididos por día. Antes de escribir, combino en 15 particiones cada archivo, para no tener muchos archivos pequeños ...

0 la respuesta

a operación @RDD collect () falla con el error "Ningún módulo llamado pyspark"

Estoy intentando ejecutar la operación de recopilación a continuación en RDD, creada a partir de Pyspark Dataframe (obj_filter): obj_filter.rdd.map(lambda l: (l[0],l[1],l[2])).collect()Aquí hay algunas observaciones de obj_filter, ...

0 la respuesta

Cómo analizar XML en Spark con java si las etiquetas de las columnas tienen el mismo nombre

ntenté analizar XML en spark 2.2 con java 1.8, pero esto no está dando el conjunto de datos esperado. sample xml - <?xml version="1.0" encoding="UTF-8"?> <RECORD> <PROP NAME="product.url"> <PVAL>url1</PVAL> </PROP> <PROP NAME="product.id"> ...

1 la respuesta

SBT Error de prueba: java.lang.NoSuchMethodError: net.jpountz.lz4.LZ4BlockInputStream

Obtener debajo de la excepción, cuando traté de realizar pruebas unitarias para mi código de transmisión de chispa en ventanas SBT usando scalatest. sbt testOnly<<ClassName>> * * * * * * 2018-06-18 02:39:00 ERROR Ejecutor: 91 - Excepción en ...

2 la respuesta

¿Cómo crear un Spark UDF en Java / Kotlin que devuelve un tipo complejo?

Estoy intentando escribir un UDF que devuelve un tipo complejo: private val toPrice = UDF1<String, Map<String, String>> { s -> val elements = s.split(" ") mapOf("value" to elements[0], "currency" to elements[1]) } val type = ...

1 la respuesta

Spark: Dibuja la curva de aprendizaje de un modelo con spark

Estoy usando Spark y me gustaría entrenar un modelo de aprendizaje automático. Debido a los malos resultados, me gustaría mostrar el error cometido por el modelo en cada época de la capacitación (en el tren y el conjunto de datos ...

2 la respuesta

Parking scala Json en el marco de datos

Sample Json "alternateId": [ { "type": "POPID", "value": "1-7842-0759-001" }, { "type": "CAMID", "value": "CAMID 0000-0002-7EC1-02FF-O-0000-0000-2" }, { "type": "ProgrammeUuid", "value": "1ddb01e2-6146-4e10-bba9-dde40d0ad886" } ] ...

1 la respuesta

Alcanzar concurrencia al guardar en un archivo de parquet particionado

Al escribir undataframe aparquet utilizandopartitionBy : df.write.partitionBy("col1","col2","col3").parquet(path) Sería mi expectativa que cada partición que se está escribiendo se hiciera independientemente por una tarea separada y en paralelo ...