Resultados de la búsqueda a petición "apache-spark-2.0"

3 la respuesta

Lectura de archivos csv con campos entre comillas que contienen comas incrustadas

Estoy leyendo un archivo csv en Pyspark de la siguiente manera: df_raw=spark.read.option("header","true").csv(csv_path)Sin embargo, el archivo de datos ha citado campos con comas incrustadas que no deben tratarse como comas. ¿Cómo puedo manejar ...

2 la respuesta

Conjunto de datos Spark 2.0 vs DataFrame

comenzando con la chispa 2.0.1 Tengo algunas preguntas. Leí mucha documentación pero hasta ahora no pude encontrar suficientes respuestas: Cuál es la diferencia entredf.select("foo")df.select($"foo")entiendo correctamente ...

1 la respuesta

¿Por qué falla el uso de caché en conjuntos de datos de transmisión con "AnalysisException: las consultas con fuentes de transmisión deben ejecutarse con writeStream.start ()"?

SparkSession .builder .master("local[*]") .config("spark.sql.warehouse.dir", "C:/tmp/spark") .config("spark.sql.streaming.checkpointLocation", "C:/tmp/spark/spark-checkpoint") .appName("my-test") .getOrCreate .readStream .schema(schema) ...

2 la respuesta

Partición de parquet Spark: gran cantidad de archivos

Estoy tratando de aprovechar la partición de chispas. Estaba tratando de hacer algo como data.write.partitionBy("key").parquet("/location")El problema aquí es que cada partición crea una gran cantidad de archivos de parquet que resultan en ...

2 la respuesta

Apache Spark vs Apache Spark 2 [cerrado]

¿Cuáles son las mejoras que trae Apache Spark2 en comparación con Apache Spark? Desde la perspectiva de la arquitecturaDesde el punto de vista de la aplicacióno más

1 la respuesta

¿Cómo ejecutar varias instancias de Spark 2.0 a la vez (en múltiples computadoras portátiles Jupyter)?

Tengo un script que convenientemente me permite usar Spark en un cuaderno Jupyter. Esto es genial, excepto cuando ejecuto comandos de chispa en un segundo bloc de notas (por ejemplo, para probar algunos trabajos de memoria virtual). Recibo un ...

1 la respuesta

Clase de caso Scala que ignora la importación en el shell Spark

¡Espero que haya una respuesta obvia a esta pregunta! Acabo de actualizar a Spark v2.0 y tengo un extraño problema con elchispa (Compilación Scala 2.11). Si ingreso el siguiente mínimo de Scala, import java.sql.Timestamp case class ...

6 la respuesta

Cómo crear SparkSession a partir de SparkContext existente

Tengo una aplicación Spark que usa la nueva API Spark 2.0 conSparkSession. Estoy construyendo esta aplicación sobre la otra aplicación que está usandoSparkContext. Me gustaria pasarSparkContext a mi aplicación e inicializarSparkSession utilizando ...

2 la respuesta

Cómo lanzar un WrappedArray [WrappedArray [Float]] a Array [Array [Float]] en spark (scala)

Estoy usando Spark 2.0. Tengo una columna de mi marco de datos que contiene unWrappedArray de Wrapped Arrays of Float. Un ejemplo de una fila sería: [[1.0 2.0 2.0][6.0 5.0 2.0][4.0 2.0 3.0]]Estoy tratando de transformar esta columna en ...

1 la respuesta

El esquema para el tipo Any no es compatible

Estoy tratando de crear una chispa UDF para extraer un mapa de pares (clave, valor) de una clase de caso definida por el usuario. La función de escala parece funcionar bien, pero cuando trato de convertir eso a un UDF en spark2.0, me encuentro ...