Resultados de la búsqueda a petición "apache-spark-sql"

2 la respuesta

¿Cómo forzar inferSchema para CSV a considerar enteros como fechas (con la opción "dateFormat")?

Yo uso Spark 2.2.0 Estoy leyendo un archivo csv de la siguiente manera: val dataFrame = spark.read.option("inferSchema", "true") .option("header", true) .option("dateFormat", "yyyyMMdd") .csv(pathToCSVFile)Hay una columna de fecha en este ...

2 la respuesta

¿Cuál es la diferencia entre spark.sql.shuffle.partitions y spark.default.parallelism?

Cuál es la diferencia entrespark.sql.shuffle.partitions yspark.default.parallelism? He tratado de ponerlos a ambos enSparkSQL, pero el número de tarea de la segunda etapa es siempre 200.

1 la respuesta

¿Cómo decide Spark SQL la cantidad de particiones que usará al cargar datos de una tabla de Hive?

Esta pregunta es igual aNúmero de particiones de un marco de datos de chispa creado al leer los datos de la tabla de ...

2 la respuesta

Acerca de cómo agregar una nueva columna a un DataFrame existente con valores aleatorios en Scala

Tengo un marco de datos con un archivo de parquet y tengo que agregar una nueva columna con algunos datos aleatorios, pero necesito que esos datos aleatorios sean diferentes entre sí. Este es mi código real y la versión actual de spark ...

1 la respuesta

Convertir columna que contiene múltiples formatos de fecha de cadena a DateTime en Spark

Tengo una columna de fecha en mi SparkDataDrame que contiene múltiples formatos de cadena. Me gustaría enviarlos a DateTime. Los dos formatos en mi columna son: mm/dd/yyyy; yyyyy-mm-ddMi solución hasta ahora es usar un UDF para cambiar ...

1 la respuesta

Particionar en chispa mientras lee desde RDBMS a través de JDBC

Estoy ejecutando spark en modo de clúster y leyendo datos de RDBMS a través de JDBC. Según chispadocs [http://spark.apache.org/docs/latest/sql-programming-guide.html#jdbc-to-other-databases] , estos parámetros de partición describen cómo ...

2 la respuesta

¿Cómo agregar un nuevo campo a la columna de estructura?

Tengo un marco de datos con algo como estodf.printSchema: root |-- ts: timestamp (nullable = true) |-- geoip: struct (nullable = true) | |-- city: string (nullable = true) | |-- continent: string (nullable = true) | |-- location: struct ...

3 la respuesta

¿Cómo construir Dataframe desde un archivo Excel (xls, xlsx) en Scala Spark?

Tengo un granExcel(xlsx and xls) archivo con varias hojas y necesito convertirlo aRDD oDataframe para que pueda unirse a otrodataframe más tarde. Estaba pensando en usarApache POI [https://poi.apache.org/]y guardarlo comoCSV y luego ...

4 la respuesta

¿Cómo concatenar múltiples columnas en una sola columna (sin conocimiento previo de su número)?

Digamos que tengo el siguiente marco de datos: agentName|original_dt|parsed_dt| user|text| +----------+-----------+---------+-------+----+ |qwertyuiop| 0| 0|16102.0| 0| Deseo crear un nuevo marco de datos con una columna más que tenga ...

2 la respuesta

¿Cómo dividir una lista en varias columnas en Pyspark?

Yo tengo: key value a [1,2,3] b [2,3,4]Yo quiero: key value1 value2 value3 a 1 2 3 b 2 3 4Parece que en scala puedo escribir:df.select($"value._1", $"value._2", $"value._3"), pero no es posible en python. Entonces, ¿hay una buena manera de ...