Resultados de la búsqueda a petición "spark-dataframe"

0 la respuesta

Error de SparkR collect () y head () para Spark DataFrame: los argumentos implican un número diferente de filas

Leí un archivo de parquet del sistema HDFS: path<-"hdfs://part_2015" AppDF <- parquetFile(sqlContext, path) printSchema(AppDF) root |-- app: binary (nullable = true) |-- category: binary (nullable = true) |-- date: binary (nullable = true) |-- ...

0 la respuesta

SparkR: dplyr-style split-apply-combine en DataFrame

Bajo el paradigma RDD anterior, podría especificar una clave y luego asignar una operación a los elementos RDD correspondientes a cada clave. No veo una forma clara de hacer esto con DataFrame en SparkR a partir de 1.5.1. Lo que me gustaría hacer ...

0 la respuesta

Cómo "reducir" múltiples tablas json almacenadas en una columna de un RDD a una sola tabla RDD de la manera más eficiente posible

¿El acceso concurrente para agregar filas usando la unión en un marco de datos usando el siguiente código funcionará correctamente? Actualmente muestra error de tipo from pyspark.sql.types import * schema = StructType([ ...

0 la respuesta

OUTER JOIN en 2 MARCOS DE DATOS: Spark Scala SqlContext

Recibo un error al hacer uniones externas en 2 marcos de datos. Estoy tratando de obtener el percentil. val sqlContext = new org.apache.spark.sql.SQLContext(sc) val df = sqlContext.jsonFile("temp.txt") val res = ...

0 la respuesta

Aparece el error "No se pudo obtener una instancia de HMACSHA256" al acceder a Azure CosmosDB

Estoy tratando de escribir el marco de datos de Spark en Azure CosmosDB y he configurado toda la configuración correcta, pero obtengo el siguiente error al intentar escribir datos. My Build.sbt name := "MyApp" version := "1.0" scalaVersion := ...

1 la respuesta

Spark dataframes groupby en la lista

Estoy tratando de hacer un análisis en conjuntos. Tengo un conjunto de datos de muestra que se ve así: orders.json {"items":[1,2,3,4,5]} {"items":[1,2,5]} {"items":[1,3,5]} {"items":[3,4,5]}Todo lo que es, es un campo único que es una lista de ...

1 la respuesta

Cómo filtrar un marco de datos de chispa contra otro marco de datos

Estoy tratando de filtrar un marco de datos contra otro: scala> val df1 = sc.parallelize((1 to 100).map(a=>(s"user $a", a*0.123, a))).toDF("name", "score", "user_id") scala> val df2 = sc.parallelize(List(2,3,4,5,6)).toDF("valid_id")Ahora quiero ...

1 la respuesta

Función Apache Spark Window con columna anidada

No estoy seguro de que esto sea un error (o simplemente una sintaxis incorrecta). Busqué alrededor y no vi esto mencionado en otra parte, así que pregunto aquí antes de presentar un informe de error. Estoy tratando de usar una función de Windows ...

1 la respuesta

Crear DataFrame a partir de la lista de tuplas usando pyspark

Estoy trabajando con datos extraídos de SFDC usando el paquete simple-salesforce. Estoy usando Python3 para scripting y Spark 1.5.2. Creé un rdd que contiene los siguientes datos: [('Id', 'a0w1a0000003xB1A'), ('PackSize', 1.0), ('Name', 'A')] ...

1 la respuesta

Spark Streaming: ¿Cómo puedo agregar más particiones a mi DStream?

Tengo una aplicación de transmisión por chispa que se ve así: val message = KafkaUtils.createStream(...).map(_._2) message.foreachRDD( rdd => { if (!rdd.isEmpty){ val kafkaDF = sqlContext.read.json(rdd) kafkaDF.foreachPartition( i =>{ ...