Resultados de la búsqueda a petición "apache-spark"
chispa: cómo hacer una caída Duplica en un marco de datos mientras mantiene la fila con la marca de tiempo más alta [duplicado]
Esta pregunta ya tiene una respuesta aquí: Encuentre la fila máxima por grupo en Spark DataFrame [/questions/35218882/find-maximum-row-per-group-in-spark-dataframe] 2 respuestas Tengo un caso de uso en el que necesitaría eliminar filas ...
¿Cómo almacenar objetos personalizados en el conjunto de datos?
De acuerdo aPresentación de conjuntos de datos de Spark [https://databricks.com/blog/2016/01/04/introducing-spark-datasets.html]: Mientras esperamos Spark 2.0, planeamos algunas mejoras interesantes para los conjuntos de datos, específicamente: ...
obtener el tema del mensaje kafka en chispa
En nuestro trabajo de transmisión de chispas, leemos mensajes en transmisión desde kafka. Para esto, usamos elKafkaUtils.createDirectStream API que devuelveJavaPairInputDStreamfrom. Los mensajes se leen de kafka (de tres temas: prueba1, ...
pyspark EOFError después de llamar al mapa
Soy nuevo en spark & pyspark. Estoy leyendo un pequeño archivo csv (~ 40k) en un marco de datos. from pyspark.sql import functions as F df ...
Spark Build Custom Column Function, función definida por el usuario
Estoy usando Scala y quiero construir mi propia función DataFrame. Por ejemplo, quiero tratar una columna como una matriz, recorrer cada elemento y hacer un cálculo. Para comenzar, estoy tratando de implementar mi propio método getMax. ...
¿Cómo modificar un Spark Dataframe con una estructura compleja anidada?
Tengo una estructura DataFrame compleja y me gustaría anular una columna fácilmente. He creado clases implícitas que conectan la funcionalidad y abordan fácilmente las estructuras 2D DataFrame, pero una vez que DataFrame se vuelve más complicado ...
Suma operación en PySpark DataFrame dando TypeError cuando el tipo está bien
Tengo ese DataFrame en PySpark (este es el resultado de una toma (3), el marco de datos es muy grande): sc = SparkContext() df = [Row(owner=u'u1', a_d=0.1), Row(owner=u'u2', a_d=0.0), Row(owner=u'u1', a_d=0.3)]lo mismopropietario Tendrá más ...
chispa falla en windows: <consola>: 16: error: no encontrado: valor sqlContext
Instalo la chispa en Windows, pero no se pudo ejecutar mostrando el siguiente error: <console>:16: error: not found: value sqlContext import sqlContext.implicits._ ^ <console>:16: error: not found: value sqlContext import sqlContext.sql ...
Spark: Tarea no serializable para UDF en DataFrame
yo obtengoorg.apache.spark.SparkException: Task not serializable cuando intento ejecutar lo siguiente en Spark 1.4.1: import java.sql.{Date, Timestamp} import java.text.SimpleDateFormat object ConversionUtils { val iso8601 = ...