Resultados de la búsqueda a petición "apache-spark"

2 la respuesta

chispa: cómo hacer una caída Duplica en un marco de datos mientras mantiene la fila con la marca de tiempo más alta [duplicado]

Esta pregunta ya tiene una respuesta aquí: Encuentre la fila máxima por grupo en Spark DataFrame [/questions/35218882/find-maximum-row-per-group-in-spark-dataframe] 2 respuestas Tengo un caso de uso en el que necesitaría eliminar filas ...

8 la respuesta

¿Cómo almacenar objetos personalizados en el conjunto de datos?

De acuerdo aPresentación de conjuntos de datos de Spark [https://databricks.com/blog/2016/01/04/introducing-spark-datasets.html]: Mientras esperamos Spark 2.0, planeamos algunas mejoras interesantes para los conjuntos de datos, específicamente: ...

2 la respuesta

obtener el tema del mensaje kafka en chispa

En nuestro trabajo de transmisión de chispas, leemos mensajes en transmisión desde kafka. Para esto, usamos elKafkaUtils.createDirectStream API que devuelveJavaPairInputDStreamfrom. Los mensajes se leen de kafka (de tres temas: prueba1, ...

2 la respuesta

pyspark EOFError después de llamar al mapa

Soy nuevo en spark & pyspark. Estoy leyendo un pequeño archivo csv (~ 40k) en un marco de datos. from pyspark.sql import functions as F df ...

2 la respuesta

Spark Build Custom Column Function, función definida por el usuario

Estoy usando Scala y quiero construir mi propia función DataFrame. Por ejemplo, quiero tratar una columna como una matriz, recorrer cada elemento y hacer un cálculo. Para comenzar, estoy tratando de implementar mi propio método getMax. ...

1 la respuesta

¿Cómo modificar un Spark Dataframe con una estructura compleja anidada?

Tengo una estructura DataFrame compleja y me gustaría anular una columna fácilmente. He creado clases implícitas que conectan la funcionalidad y abordan fácilmente las estructuras 2D DataFrame, pero una vez que DataFrame se vuelve más complicado ...

1 la respuesta

Suma operación en PySpark DataFrame dando TypeError cuando el tipo está bien

Tengo ese DataFrame en PySpark (este es el resultado de una toma (3), el marco de datos es muy grande): sc = SparkContext() df = [Row(owner=u'u1', a_d=0.1), Row(owner=u'u2', a_d=0.0), Row(owner=u'u1', a_d=0.3)]lo mismopropietario Tendrá más ...

3 la respuesta

chispa falla en windows: <consola>: 16: error: no encontrado: valor sqlContext

Instalo la chispa en Windows, pero no se pudo ejecutar mostrando el siguiente error: <console>:16: error: not found: value sqlContext import sqlContext.implicits._ ^ <console>:16: error: not found: value sqlContext import sqlContext.sql ...

2 la respuesta

llamada de distinto y mapa juntos lanza NPE en biblioteca de chispas

1 la respuesta

Spark: Tarea no serializable para UDF en DataFrame

yo obtengoorg.apache.spark.SparkException: Task not serializable cuando intento ejecutar lo siguiente en Spark 1.4.1: import java.sql.{Date, Timestamp} import java.text.SimpleDateFormat object ConversionUtils { val iso8601 = ...