Resultados de la búsqueda a petición "apache-spark-sql"

Recibo un error al hacer uniones externas en 2 marcos de datos. Estoy tratando de obtener el percentil. val sqlContext = new org.apache.spark.sql.SQLContext(sc) val df = sqlContext.jsonFile("temp.txt") val res = ...

apache-spark hive hadoop

0 la respuesta

Spark 2.0: "Tabla o vista no encontrada" al consultar Hive [cerrado]

Al consultar Hive a través despark-shell 2.0: spark.sql("SELECT * FROM schemaname.tablename")Lanza un error: 16/08/13 09:24:17 INFO execution.SparkSqlParser: Parsing command: SELECT * FROM schemaname.tablename ...

apache-spark apache-spark-mllib

0 la respuesta

Escalando cada columna de un marco de datos

Estoy tratando de escalar cada columna de un marco de datos. Primero convierto cada columna en un vector y luego uso el ml MinMax Scaler. ¿Existe una manera mejor / más elegante de aplicar la misma función a cada columna que no sea simplemente ...

python pyspark pyspark-sql apache-spark

0 la respuesta

¿Cómo comparar los encabezados de df con otros encabezados de df usando Fuzzy Matching en pyspark?

He creado 3 marcos de datos ejecutando el siguiente código. sample.csv id|code|name|Lname|mname 2|AA|BB|CC|DD| sample1.csv id|code|name|Lname|mname 1|A|B|C|D| sample2.csv id1|code1|name1|Lnam|mnam 3|AAA|BBB|CCC|DDD| He comparado los ...

scala

0 la respuesta

Spark Funciones de ventana que dependen de sí mismo

Digo que tengo una columna de marcas de tiempo ordenadas en un DataFrame. Quiero escribir una función que agregue una columna a este DataFrame que corte las marcas de tiempo en segmentos de tiempo secuenciales de acuerdo con las siguientes ...

hadoop apache-spark amazon-s3 parquet

1 la respuesta

Spark SQL no puede completar la escritura de datos de Parquet con una gran cantidad de fragmentos

Estoy tratando de usar Apache Spark SQL para etl json registrar datos en S3 en archivos Parquet también en S3. Mi código es básicamente: import org.apache.spark._ val sqlContext = sql.SQLContext(sc) val data = sqlContext.jsonFile("s3n://...", ...

scala apache-spark

1 la respuesta

Cómo usar el valor constante en UDF de Spark SQL (DataFrame)

Tengo un marco de datos que incluyetimestamp. Para agregar por tiempo (minuto, hora o día), he intentado como: val toSegment = udf((timestamp: String) => { val asLong = timestamp.toLong asLong - asLong % 3600000 // period = 1 hour }) val df: ...

hive apache-spark scala security

1 la respuesta

¿Cuál es la forma preferida de evitar las inyecciones de SQL en Spark-SQL (en Hive)

Asumir un SchemaRDDrdd con una mesa registradacustomer. Desea filtrar registros de acuerdo con una entrada del usuario. Una idea que puede tener para hacer esto es la siguiente: rdd.sqlContext.sql(s"SELECT * FROM customer WHERE ...

apache-spark

1 la respuesta

¿La estructura anidada de Spark DataFrame está limitada para la selección?

Tengo un archivo json con algunos datos, puedo crear DataFrame a partir de él y el esquema para una parte en particular en la que estoy interesado es el siguiente: val json: DataFrame = sqlc.load("entities_with_address2.json", "json") root |-- ...

apache-spark pyspark

1 la respuesta

Problema con UDF en una columna de Vectores en PySpark DataFrame

Tengo problemas para usar un UDF en una columna de Vectores en PySpark que se puede ilustrar aquí: from pyspark import SparkContext from pyspark.sql import Row from pyspark.sql.types import DoubleType from pyspark.sql.functions import udf ...

Página 1 de 52

12 3 4 5

Resultados de la búsqueda a petición "apache-spark-sql"

OUTER JOIN en 2 MARCOS DE DATOS: Spark Scala SqlContext

Spark 2.0: "Tabla o vista no encontrada" al consultar Hive [cerrado]

Escalando cada columna de un marco de datos

Etiquetas Populares

¿Cómo comparar los encabezados de df con otros encabezados de df usando Fuzzy Matching en pyspark?

Spark Funciones de ventana que dependen de sí mismo

Spark SQL no puede completar la escritura de datos de Parquet con una gran cantidad de fragmentos

Cómo usar el valor constante en UDF de Spark SQL (DataFrame)

¿Cuál es la forma preferida de evitar las inyecciones de SQL en Spark-SQL (en Hive)

¿La estructura anidada de Spark DataFrame está limitada para la selección?

Problema con UDF en una columna de Vectores en PySpark DataFrame

¡Eres muy activo! ¡Es genial!

Resultados de la búsqueda a petición "apache-spark-sql"

Etiquetas Populares