Resultados de la búsqueda a petición "apache-spark-sql"

3 la respuesta

¿Cómo convertir una columna de matrices de cadenas en cadenas?

Tengo una columna, que es de tipoarray < string > en mesas de chispas. Estoy usando SQL para consultar estas tablas de chispa. Quería convertir elarray < string > dentrostring. Cuando se usa la siguiente sintaxis: select cast(rate_plan_code as ...

2 la respuesta

Cómo cambiar el nombre de los campos en un DataFrame correspondiente a JSON anidado

Estoy tratando de procesar eventos JSON recibidos en una aplicación móvil (como clics, etc.) usandospark 1.5.2. Existen múltiples versiones de aplicaciones y la estructura de los eventos varía según las versiones. Digamos que la versión 1 tiene ...

4 la respuesta

Analizar CSV como DataFrame / DataSet con Apache Spark y Java

Soy nuevo en spark, y quiero usar group-by & reduce para encontrar lo siguiente de CSV (una línea por empleado): Department, Designation, costToCompany, State Sales, Trainee, 12000, UP Sales, Lead, 32000, AP Sales, Lead, 32000, LA Sales, Lead, ...

1 la respuesta

Comprender la representación de la columna vectorial en Spark SQL

Antes de usar VectorAssembler () para consolidar algunas características categóricas de OneHotEncoded ... Mi marco de datos se veía así: | Numerical| HotEncoded1| HotEncoded2 | 14460.0| (44,[5],[1.0])| (3,[0],[1.0])| | 14460.0| (44,[9],[1.0])| ...

1 la respuesta

Cómo mejorar la transmisión Velocidad de unión con una condición intermedia en Spark

Tengo dos marcos de datos A y B. A es grande (100 G) y B es relativamente pequeño (100 M). El número de partición de A es 8 y el número de partición de B es 1. A.join(broadcast(B), $"cur" >= $"low" && $"cur" <= $"high", "left_outer")La velocidad ...

1 la respuesta

Scala / Spark dataframes: encuentre el nombre de columna correspondiente al máximo

En Scala / Spark, tener un marco de datos: val dfIn = sqlContext.createDataFrame(Seq( ("r0", 0, 2, 3), ("r1", 1, 0, 0), ("r2", 0, 2, 2))).toDF("id", "c0", "c1", "c2")Me gustaría calcular una nueva columnamaxCol sosteniendo elnombrede la columna ...

2 la respuesta

Spark SQL - Cadena de consulta de escape

No puedo creer que te pregunte esto pero ... ¿CÓMO ESCAPAR UNA CADENA DE CONSULTA SQL EN SPARK SQL UTILIZANDO SCALA? He cansado todo y buscado en todas partes. Pensé que la biblioteca de apache commons lo haría, pero no tuve suerte: import ...

3 la respuesta

¿Cómo convertir la marca de tiempo al formato de fecha en DataFrame?

tengo unDataFrame conTimestamp columna, que necesito convertir comoDate formato. ¿Hay alguna función Spark SQL disponible para esto?

1 la respuesta

¿Por qué falla el uso de caché en conjuntos de datos de transmisión con "AnalysisException: las consultas con fuentes de transmisión deben ejecutarse con writeStream.start ()"?

SparkSession .builder .master("local[*]") .config("spark.sql.warehouse.dir", "C:/tmp/spark") .config("spark.sql.streaming.checkpointLocation", "C:/tmp/spark/spark-checkpoint") .appName("my-test") .getOrCreate .readStream .schema(schema) ...

2 la respuesta

¿SparkSQL admite subconsultas?

Estoy ejecutando esta consulta en Spark Shell pero me da un error, sqlContext.sql( "select sal from samplecsv where sal < (select MAX(sal) from samplecsv)" ).collect().foreach(println)error: java.lang.RuntimeException: [1.47] error: ``) '' ...