Resultados de la búsqueda a petición "apache-spark"

1 la respuesta

Salir de Spark-shell del script scala

Estoy usando este comando para ejecutar scripts scala. spark-shell -i test.scalaAl final de la ejecución de la secuencia de comandos, todavía veo que se ejecuta spark-shell. He usado ": q /: quit" en el script test.scala para intentar salir ...

2 la respuesta

Spark Streaming mapWithState parece reconstruir el estado completo periódicamente

Estoy trabajando en un proyecto de transmisión Scala (2.11) / Spark (1.6.1) y estoy usandomapWithState() para realizar un seguimiento de los datos vistos de lotes anteriores. El estado se distribuye en 20 particiones en múltiples nodos, ...

2 la respuesta

Apache Spark Exception en el hilo "main" java.lang.NoClassDefFoundError: scala / collection / GenTraversableOnce $ class

Versión de Scala: 2.11.7 (se tuvo que actualizar la versión de Scala para permitir que la clase de casos acepte más de 22 parámetros). Versión de Spark: 1.6.1 PFB pom.xml Obteniendo el siguiente error al intentar configurar la chispa en intellij ...

1 la respuesta

¿Por qué obtengo resultados nulos de la función date_format () PySpark?

Supongamos que hay un marco de fecha con una columna compuesta de fechas como cadenas. Para ese supuesto, creamos el siguiente dataFrame como ejemplo: # Importing sql types from pyspark.sql.types import StringType, IntegerType, StructType, ...

2 la respuesta

Cambiar el prefijo de nombre de archivo de salida para DataFrame.write ()

Los archivos de salida generados a través del método Spark SQL DataFrame.write () comienzan con el prefijo de nombre base "parte". p.ej. DataFrame sample_07 = ...

1 la respuesta

¿Cómo leer múltiples elementos de línea en Spark?

Cuando lees un archivo en Spark usandosc.textfile, le da elementos, donde cada elemento es una línea separada. Sin embargo, quiero que cada elemento consista en N número de líneas. Tampoco puedo usar delimitadores porque no hay ninguno en ese ...

1 la respuesta

En PySpark 1.5.0, ¿cómo enumera todos los elementos de la columna `y` en función de los valores de la columna` x`?

La siguiente pregunta es específica de la versión 1.5.0 de PySpark, ya que constantemente se agregan nuevas características a PySpark. ¿Cómo enumeras todos los elementos de la columna?y basado en los valores de la columnax? Por ejemplo: rdd = ...

4 la respuesta

java.lang.OutOfMemoryError en pyspark

Hy Tengo un marco de datos en un sparkcontext con 400k filas y 3 columnas. El controlador tiene 143.5 de memoria de almacenamiento 16/03/21 19:52:35 INFO BlockManagerMasterEndpoint: Registering block manager localhost:55613 with 143.5 GB RAM, ...

3 la respuesta

Spark Row a JSON

Me gustaría crear un JSON desde un marco de datos Spark v.1.6 (usando scala). Sé que existe la solución simple de hacerdf.toJSON. Sin embargo, mi problema se ve un poco diferente. Considere, por ejemplo, un marco de datos con las siguientes ...

3 la respuesta

PySpark: escupe un solo archivo al escribir en lugar de varios archivos de pieza

¿Hay alguna manera de evitar que PySpark cree varios archivos pequeños al escribir un DataFrame en un archivo JSON? Si corro: df.write.format('json').save('myfile.json')o df1.write.json('myfile.json')crea la carpeta llamadamyfile y dentro de ...