Resultados de la búsqueda a petición "apache-spark-sql"

1 la respuesta

NullPointerException después de extraer una tabla Teradata con Scala / Spark

Necesito extraer una tabla de Teradata (acceso de solo lectura) al parquet con Scala (2.11) / Spark (2.1.0). Estoy construyendo un marco de datos que puedo cargar con éxito val df = spark.read.format("jdbc").options(options).load()Perodf.show me ...

2 la respuesta

Función de ventana Spark SQL con condición compleja

Esto es probablemente más fácil de explicar a través del ejemplo. Supongamos que tengo un DataFrame de inicios de sesión de usuario en un sitio web, por ejemplo: scala> df.show(5) +----------------+----------+ | ...

1 la respuesta

¿Cómo enumerar todas las tablas en la base de datos usando Spark SQL?

Tengo una conexión SparkSQL a una base de datos externa: from pyspark.sql import SparkSession spark = SparkSession \ .builder \ .appName("Python Spark SQL basic example") \ .getOrCreate()Si sé el nombre de una tabla, es fácil de ...

3 la respuesta

Uso del objeto Python personalizado en Pyspark UDF

Al ejecutar el siguiente fragmento de código PySpark: nlp = NLPFunctions() def parse_ingredients(ingredient_lines): parsed_ingredients = nlp.getingredients_bulk(ingredient_lines)[0] return list(chain.from_iterable(parsed_ingredients)) ...

1 la respuesta

Desvincular en spark-sql / pyspark

Tengo un enunciado del problema en el que quiero desenredar la tabla en spark-sql / pyspark. He revisado la documentación y pude ver que solo hay soporte para pivote, pero hasta ahora no hay soporte para un-pivot. ¿Hay alguna manera de lograr ...

2 la respuesta

Filtro de condición múltiple en el marco de datos

¿Alguien puede explicarme por qué obtengo resultados diferentes para estas 2 expresiones? Estoy tratando de filtrar entre 2 fechas: df.filter("act_date <='2017-04-01'" and "act_date ...

1 la respuesta

¿Cómo desenrollar una matriz en DataFrame (de JSON)?

Cada registro en un RDD contiene un json. Estoy usando SQLContext para crear un DataFrame de Json como este: val signalsJsonRdd = sqlContext.jsonRDD(signalsJson)A continuación se muestra el esquema. datapayload es una matriz de elementos. Quiero ...

1 la respuesta

Scala / Spark dataframes: encuentre el nombre de columna correspondiente al máximo

En Scala / Spark, tener un marco de datos: val dfIn = sqlContext.createDataFrame(Seq( ("r0", 0, 2, 3), ("r1", 1, 0, 0), ("r2", 0, 2, 2))).toDF("id", "c0", "c1", "c2")Me gustaría calcular una nueva columnamaxCol sosteniendo elnombrede la columna ...

1 la respuesta

Crear / acceder a un marco de datos dentro de la transformación de otro marco de datos

Estoy adaptando un código existente para usar Spark. Tengo múltiples marcos de datos que contienen diferentes conjuntos de datos. Al transformar mi marco de datos principal (o mi conjunto de datos principal), necesito usar datos de los otros ...

4 la respuesta

Apache Spark: obtenga el número de registros por partición

Quiero comprobar cómo podemos obtener información sobre cada partición, como el número total. de registros en cada partición en el lado del controlador cuando el trabajo de Spark se envía con el modo de implementación como un clúster de hilo para ...