Resultados de la búsqueda a petición "spark-dataframe"

3 la respuesta

Acoplar marco de datos de chispa anidada

¿Hay alguna manera de aplanar un Spark Dataframe anidado arbitrariamente? La mayor parte del trabajo que estoy viendo está escrito para un esquema específico, y me gustaría poder aplanar genéricamente un Dataframe con diferentes tipos anidados ...

2 la respuesta

¿Cómo convertir DataFrame a Dataset en Apache Spark en Java?

Puedo convertir DataFrame a Dataset en Scala muy fácil: case class Person(name:String, age:Long) val df = ctx.read.json("/tmp/persons.json") val ds = df.as[Person] ds.printSchemapero en la versión de Java no sé cómo convertir Dataframe a ...

3 la respuesta

Spark 1.6: java.lang.IllegalArgumentException: spark.sql.execution.id ya está configurado

Estoy usando spark 1.6 y me encuentro con el problema anterior cuando ejecuto el siguiente código: // Imports import org.apache.spark.sql.hive.HiveContext import org.apache.spark.{SparkConf, SparkContext} import ...

3 la respuesta

Spark: Agregar columna al marco de datos condicionalmente

Estoy tratando de tomar mis datos de entrada: A B C -------------- 4 blah 2 2 3 56 foo 3Y agregue una columna al final según si B está vacío o no: A B C D -------------------- 4 blah 2 1 2 3 0 56 foo 3 1Puedo hacer esto fácilmente registrando ...

1 la respuesta

Crear DataFrame a partir de la lista de tuplas usando pyspark

Estoy trabajando con datos extraídos de SFDC usando el paquete simple-salesforce. Estoy usando Python3 para scripting y Spark 1.5.2. Creé un rdd que contiene los siguientes datos: [('Id', 'a0w1a0000003xB1A'), ('PackSize', 1.0), ('Name', 'A')] ...

1 la respuesta

Función Apache Spark Window con columna anidada

No estoy seguro de que esto sea un error (o simplemente una sintaxis incorrecta). Busqué alrededor y no vi esto mencionado en otra parte, así que pregunto aquí antes de presentar un informe de error. Estoy tratando de usar una función de Windows ...

3 la respuesta

La interfaz de usuario de Spark muestra 0 núcleos incluso cuando se configuran núcleos en la aplicación

Tengo un problema extraño al ejecutar una aplicación fuera de la url maestra de chispas donde la interfaz de usuario informa un "ESTADO" de "ESPERA" indefinidamente ya que se muestran 0 núcleos en la tabla APLICACIONES EN EJECUCIÓN sin importar ...

1 la respuesta

Spark Streaming: ¿Cómo puedo agregar más particiones a mi DStream?

Tengo una aplicación de transmisión por chispa que se ve así: val message = KafkaUtils.createStream(...).map(_._2) message.foreachRDD( rdd => { if (!rdd.isEmpty){ val kafkaDF = sqlContext.read.json(rdd) kafkaDF.foreachPartition( i =>{ ...

1 la respuesta

Cómo seleccionar todas las columnas que comienzan con una etiqueta común

Tengo un marco de datos en Spark 1.6 y quiero seleccionar solo algunas columnas. Los nombres de las columnas son como: colA, colB, colC, colD, colE, colF-0, colF-1, colF-2Sé que puedo hacer esto para seleccionar columnas ...

4 la respuesta

Múltiples condiciones para el filtro en marcos de datos de chispa

Tengo un marco de datos con cuatro campos. uno de los nombres de campo es Estado y estoy tratando de usar una condición OR en .filter para un marco de datos. Intenté debajo de las consultas pero no tuve suerte. df2 = df1.filter(("Status=2") || ...