Resultados de la búsqueda a petición "apache-spark-2.0"
Clase de caso Scala que ignora la importación en el shell Spark
¡Espero que haya una respuesta obvia a esta pregunta! Acabo de actualizar a Spark v2.0 y tengo un extraño problema con elchispa (Compilación Scala 2.11). Si ingreso el siguiente mínimo de Scala, import java.sql.Timestamp case class ...
¿Por qué falla el uso de caché en conjuntos de datos de transmisión con "AnalysisException: las consultas con fuentes de transmisión deben ejecutarse con writeStream.start ()"?
SparkSession .builder .master("local[*]") .config("spark.sql.warehouse.dir", "C:/tmp/spark") .config("spark.sql.streaming.checkpointLocation", "C:/tmp/spark/spark-checkpoint") .appName("my-test") .getOrCreate .readStream .schema(schema) ...
¿Cómo ejecutar varias instancias de Spark 2.0 a la vez (en múltiples computadoras portátiles Jupyter)?
Tengo un script que convenientemente me permite usar Spark en un cuaderno Jupyter. Esto es genial, excepto cuando ejecuto comandos de chispa en un segundo bloc de notas (por ejemplo, para probar algunos trabajos de memoria virtual). Recibo un ...
El esquema para el tipo Any no es compatible
Estoy tratando de crear una chispa UDF para extraer un mapa de pares (clave, valor) de una clase de caso definida por el usuario. La función de escala parece funcionar bien, pero cuando trato de convertir eso a un UDF en spark2.0, me encuentro ...
Apache Spark vs Apache Spark 2 [cerrado]
¿Cuáles son las mejoras que trae Apache Spark2 en comparación con Apache Spark? Desde la perspectiva de la arquitecturaDesde el punto de vista de la aplicacióno más
¿Cómo especificar el dialecto sql al crear un marco de datos de chispa desde JDBC?
Tengo problemas para leer datos a través de JDBC personalizado con Spark. ¿Cómo haría para anular el dialecto sql inferido a través de la URL de jdbc? La base de datos en cuestión es vitess ...
Conjunto de datos Spark 2.0 vs DataFrame
comenzando con la chispa 2.0.1 Tengo algunas preguntas. Leí mucha documentación pero hasta ahora no pude encontrar suficientes respuestas: Cuál es la diferencia entredf.select("foo")df.select($"foo")entiendo correctamente ...
Cómo lanzar un WrappedArray [WrappedArray [Float]] a Array [Array [Float]] en spark (scala)
Estoy usando Spark 2.0. Tengo una columna de mi marco de datos que contiene unWrappedArray de Wrapped Arrays of Float. Un ejemplo de una fila sería: [[1.0 2.0 2.0][6.0 5.0 2.0][4.0 2.0 3.0]]Estoy tratando de transformar esta columna en ...
Partición de parquet Spark: gran cantidad de archivos
Estoy tratando de aprovechar la partición de chispas. Estaba tratando de hacer algo como data.write.partitionBy("key").parquet("/location")El problema aquí es que cada partición crea una gran cantidad de archivos de parquet que resultan en ...
Lectura de archivos csv con campos entre comillas que contienen comas incrustadas
Estoy leyendo un archivo csv en Pyspark de la siguiente manera: df_raw=spark.read.option("header","true").csv(csv_path)Sin embargo, el archivo de datos ha citado campos con comas incrustadas que no deben tratarse como comas. ¿Cómo puedo manejar ...
Página 1 de 2