Resultados de la búsqueda a petición "apache-spark-sql"

1 la respuesta

El almacenamiento en caché ordenado de Spark DataFrame crea trabajo no deseado

Quiero convertir un RDD en un DataFrame y quiero almacenar en caché los resultados del RDD: from pyspark.sql import * from pyspark.sql.types import * import pyspark.sql.functions as fn schema = StructType([StructField('t', ...

2 la respuesta

Cómo empujar un marco de datos Spark a Elastic Search (Pyspark)

Principiante ES Pregunta aquí ¿Cuál es el flujo de trabajo o los pasos para llevar un Spark Dataframe a Elastic Search? De la investigación, creo que necesito usar elspark.newAPIHadoopFile ...

2 la respuesta

¿Cómo clasificamos el marco de datos?

Tengo un marco de datos de muestra como a continuación: i / p accountNumber assetValue A100 1000 A100 500 B100 600 B100 200o / p AccountNumber assetValue Rank A100 1000 1 A100 500 2 B100 600 1 B100 200 2Ahora mi pregunta es cómo agregamos esta ...

2 la respuesta

¿Cómo cargar CSV con marcas de tiempo en formato personalizado?

Tengo un campo de marca de tiempo en un archivo csv que cargo en un marco de datos usando la biblioteca spark csv. El mismo código funciona en mi máquina local con la versión Spark 2.0, pero arroja un error en Azure Hortonworks HDP 3.5 y 3.6. Lo ...

1 la respuesta

Utilice un método dentro de una función UDF Spark Scala

Quiero usar un método ubicado en otra clase dentro de una función diseñada por el usuario, pero no funciona. Tengo un metodo: def traitementDataFrameEleve(sc:SparkSession, dfRedis:DataFrame, domainMail:String, dir:String):Boolean ={ def ...

2 la respuesta

¿Cómo escribir un objeto de conjunto de datos para sobresalir en spark java?

Estoy leyendo un archivo de Excel usandocom.crealytics.spark.excelpaquete. A continuación se muestra el código para leer un archivo de Excel en spark java. Dataset<Row> SourcePropertSet = sqlContext.read() .format("com.crealytics.spark.excel") ...

1 la respuesta

Obtener el tamaño / longitud de una columna de matriz

Soy nuevo en la programación de Scala y esta es mi pregunta: ¿Cómo contar el número de cadenas para cada fila? Mi Dataframe se compone de una sola columna de tipo Array [String]. friendsDF: org.apache.spark.sql.DataFrame = [friends: array<string>]

2 la respuesta

¿Cómo crear un conjunto de datos de mapas?

Estoy usando Spark 2.2 y estoy teniendo problemas al intentar llamarspark.createDataset en unSeq deMap. El código y la salida de mi sesión de Spark Shell siguen: // createDataSet on Seq[T] where T = Int works scala> ...

1 la respuesta

¿Cómo puede leer dataframereader http?

Mi entorno de desarrollo: IntellijMavenScala2.10.6win7 x64Dependencias: <dependencies> <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-core_2.10 --> <dependency> ...

1 la respuesta

¿Cómo encontrar los primeros valores no nulos en grupos? (clasificación secundaria usando la API de conjunto de datos)

Estoy trabajando en un conjunto de datos que representa una secuencia de eventos (como los eventos de seguimiento de un sitio web). Todos los eventos tienen una marca de tiempo. Un caso de uso que a menudo tenemos es tratar de encontrar el primer ...