Resultados de la búsqueda a petición "spark-dataframe"

2 la respuesta

Unirse a un marco de datos de chispa grande y descomunal

Tengo dos marcos de datos, df1 tiene 6 millones de filas, df2 tiene mil millones. He probado el estándardf1.join(df2,df1("id")<=>df2("id2")), pero se queda sin memoria. df1 es demasiado grande para colocarlo en una unión de difusión. Incluso ...

2 la respuesta

¿Cómo convertir DataFrame a Dataset en Apache Spark en Java?

Puedo convertir DataFrame a Dataset en Scala muy fácil: case class Person(name:String, age:Long) val df = ctx.read.json("/tmp/persons.json") val ds = df.as[Person] ds.printSchemapero en la versión de Java no sé cómo convertir Dataframe a ...

3 la respuesta

Convertir el marco de datos de Pandas en error de marco de datos de Spark

Estoy tratando de convertir Pandas DF en Spark One. Cabeza del ...

1 la respuesta

Contar el número de filas duplicadas en SPARKSQL

Tengo un requisito donde necesito contar el número de filas duplicadas en SparkSQL para las tablas de Hive. from pyspark import SparkContext, SparkConf from pyspark.sql import HiveContext from pyspark.sql.types import * from pyspark.sql import ...

1 la respuesta

Spark Dataframe: generar una matriz de tuplas a partir de un tipo de mapa

Mi fuente aguas abajo no admite un tipo de Mapa y mi fuente sí y, como tal, lo envía. Necesito convertir este mapa en una matriz de estructura (tupla). Scala admite Map.toArray, que crea una matriz de tuplas para usted, que parece ser la función ...

0 la respuesta

OUTER JOIN en 2 MARCOS DE DATOS: Spark Scala SqlContext

Recibo un error al hacer uniones externas en 2 marcos de datos. Estoy tratando de obtener el percentil. val sqlContext = new org.apache.spark.sql.SQLContext(sc) val df = sqlContext.jsonFile("temp.txt") val res = ...

3 la respuesta

PySpark, superior para DataFrame

Lo que quiero hacer es un marco de datos, tomar los n elementos principales de acuerdo con alguna columna especificada. La parte superior (self, num) en RDD API es exactamente lo que quiero. Me pregunto si hay una API equivalente en el mundo ...

2 la respuesta

eliminar columnas NULL en Spark SQL

¿Cómo eliminar columnas que contienen solo valores nulos de una tabla? Supongamos que tengo una mesa. SnapshotDate CreationDate Country Region CloseDate Probability BookingAmount RevenueAmount SnapshotDate1 CreationDate1 CloseDate1 null null ...

1 la respuesta

¿Cómo modificar un Spark Dataframe con una estructura compleja anidada?

Tengo una estructura DataFrame compleja y me gustaría anular una columna fácilmente. He creado clases implícitas que conectan la funcionalidad y abordan fácilmente las estructuras 2D DataFrame, pero una vez que DataFrame se vuelve más complicado ...

0 la respuesta

Aparece el error "No se pudo obtener una instancia de HMACSHA256" al acceder a Azure CosmosDB

Estoy tratando de escribir el marco de datos de Spark en Azure CosmosDB y he configurado toda la configuración correcta, pero obtengo el siguiente error al intentar escribir datos. My Build.sbt name := "MyApp" version := "1.0" scalaVersion := ...