Resultados de la búsqueda a petición "apache-spark-sql"

0 la respuesta

OUTER JOIN en 2 MARCOS DE DATOS: Spark Scala SqlContext

Recibo un error al hacer uniones externas en 2 marcos de datos. Estoy tratando de obtener el percentil. val sqlContext = new org.apache.spark.sql.SQLContext(sc) val df = sqlContext.jsonFile("temp.txt") val res = ...

0 la respuesta

Spark 2.0: "Tabla o vista no encontrada" al consultar Hive [cerrado]

Al consultar Hive a través despark-shell 2.0: spark.sql("SELECT * FROM schemaname.tablename")Lanza un error: 16/08/13 09:24:17 INFO execution.SparkSqlParser: Parsing command: SELECT * FROM schemaname.tablename ...

0 la respuesta

Escalando cada columna de un marco de datos

Estoy tratando de escalar cada columna de un marco de datos. Primero convierto cada columna en un vector y luego uso el ml MinMax Scaler. ¿Existe una manera mejor / más elegante de aplicar la misma función a cada columna que no sea simplemente ...

0 la respuesta

¿Cómo comparar los encabezados de df con otros encabezados de df usando Fuzzy Matching en pyspark?

He creado 3 marcos de datos ejecutando el siguiente código. sample.csv id|code|name|Lname|mname 2|AA|BB|CC|DD| sample1.csv id|code|name|Lname|mname 1|A|B|C|D| sample2.csv id1|code1|name1|Lnam|mnam 3|AAA|BBB|CCC|DDD| He comparado los ...

0 la respuesta

Spark Funciones de ventana que dependen de sí mismo

Digo que tengo una columna de marcas de tiempo ordenadas en un DataFrame. Quiero escribir una función que agregue una columna a este DataFrame que corte las marcas de tiempo en segmentos de tiempo secuenciales de acuerdo con las siguientes ...

1 la respuesta

Spark SQL no puede completar la escritura de datos de Parquet con una gran cantidad de fragmentos

Estoy tratando de usar Apache Spark SQL para etl json registrar datos en S3 en archivos Parquet también en S3. Mi código es básicamente: import org.apache.spark._ val sqlContext = sql.SQLContext(sc) val data = sqlContext.jsonFile("s3n://...", ...

1 la respuesta

Cómo usar el valor constante en UDF de Spark SQL (DataFrame)

Tengo un marco de datos que incluyetimestamp. Para agregar por tiempo (minuto, hora o día), he intentado como: val toSegment = udf((timestamp: String) => { val asLong = timestamp.toLong asLong - asLong % 3600000 // period = 1 hour }) val df: ...

1 la respuesta

¿Cuál es la forma preferida de evitar las inyecciones de SQL en Spark-SQL (en Hive)

Asumir un SchemaRDDrdd con una mesa registradacustomer. Desea filtrar registros de acuerdo con una entrada del usuario. Una idea que puede tener para hacer esto es la siguiente: rdd.sqlContext.sql(s"SELECT * FROM customer WHERE ...

1 la respuesta

¿La estructura anidada de Spark DataFrame está limitada para la selección?

Tengo un archivo json con algunos datos, puedo crear DataFrame a partir de él y el esquema para una parte en particular en la que estoy interesado es el siguiente: val json: DataFrame = sqlc.load("entities_with_address2.json", "json") root |-- ...

1 la respuesta

Problema con UDF en una columna de Vectores en PySpark DataFrame

Tengo problemas para usar un UDF en una columna de Vectores en PySpark que se puede ilustrar aquí: from pyspark import SparkContext from pyspark.sql import Row from pyspark.sql.types import DoubleType from pyspark.sql.functions import udf ...