Resultados de la búsqueda a petición "apache-spark-sql"

1 la respuesta

¿Cuál es la forma preferida de evitar las inyecciones de SQL en Spark-SQL (en Hive)

Asumir un SchemaRDDrdd con una mesa registradacustomer. Desea filtrar registros de acuerdo con una entrada del usuario. Una idea que puede tener para hacer esto es la siguiente: rdd.sqlContext.sql(s"SELECT * FROM customer WHERE ...

6 la respuesta

Apache Spark: la conexión JDBC no funciona

También he hecho esta pregunta anteriormente, pero no obtuve ninguna respuesta ( No se puede conectar a postgres usando jdbc en pyspark ...

4 la respuesta

java.sql.SQLException: no se encontró un controlador adecuado al cargar DataFrame en Spark SQL

Me encuentro con un problema muy extraño al intentar cargar JDBC DataFrame en Spark SQL. He probado varios clústeres de Spark: HILO, clúster independiente y modo pseudo distribuido en mi computadora portátil. Es reproducible en Spark 1.3.0 y ...

6 la respuesta

Reformar / pivotar datos en Spark RDD y / o Spark DataFrames

Tengo algunos datos en el siguiente formato (RDD o Spark DataFrame): from pyspark.sql import SQLContext sqlContext = SQLContext(sc) rdd = sc.parallelize([('X01',41,'US',3), ('X01',41,'UK',1), ('X01',41,'CA',2), ('X02',72,'US',4), ...

6 la respuesta

¿Cómo pivotar DataFrame?

Estoy empezando a usar Spark DataFrames y necesito poder pivotar los datos para crear múltiples columnas de 1 columna con múltiples filas. Existe una funcionalidad integrada para eso en Scalding y creo en Pandas en Python, pero no puedo encontrar ...

6 la respuesta

Calcular la duración restando dos columnas de fecha y hora en formato de cadena

Tengo un Spark Dataframe que consta de una serie de fechas: from pyspark.sql import SQLContext from pyspark.sql import Row from pyspark.sql.types import * sqlContext = SQLContext(sc) import pandas as pd rdd ...

5 la respuesta

DataFrame-ified zipWithIndex

Estoy tratando de resolver el antiguo problema de agregar un número de secuencia a un conjunto de datos. Estoy trabajando con DataFrames, y parece que no hay un DataFrame equivalente aRDD.zipWithIndex. Por otro lado, lo siguiente funciona más o ...

6 la respuesta

¿Cómo ordenar por columna en orden descendente en Spark SQL?

Lo intentédf.orderBy("col1").show(10) pero se ordenó en orden ascendente.df.sort("col1").show(10) También se ordena en orden descendente. Miré en stackoverflow y las respuestas que encontré estaban todas desactualizadas o referido a ...

2 la respuesta

¿Cómo usar Spark SQL DataFrame con flatMap?

Estoy usando la API de Spark Scala. Tengo un Spark SQL DataFrame (leído desde un archivo Avro) con el siguiente esquema: root |-- ids: array (nullable = true) | |-- element: map (containsNull = true) | | |-- key: integer | | |-- value: string ...

3 la respuesta

Spark - “paquete sbt” - “value $ no es miembro de StringContext” - ¿Falta el complemento Scala?

Cuando ejecuto "sbt package" desde la línea de comandos para una pequeña aplicación Spark Scala, obtengo el error de compilación "value $ no es miembro de StringContext" en la siguiente línea de código: val joined = ordered.join(empLogins, ...