Resultados de la búsqueda a petición "apache-spark"

1 la respuesta

El archivo .py de importación de Pyspark no funciona

Mi objetivo es importar un archivo .py personalizado en mi aplicación spark y llamar a algunas de las funciones incluidas dentro de ese archivo Esto es lo que probé: Tengo un archivo de prueba llamadoTest.pyque se ve de la siguiente ...

8 la respuesta

¿Qué es RDD en chispa?

La definición dice: RDD es una colección distribuida inmutable de objetos No entiendo muy bien qué significa. ¿Es como los datos (objetos particionados) almacenados en el disco duro? Si es así, ¿cómo es que los RDD pueden tener clases definidas ...

2 la respuesta

Spark: procesando múltiples temas kafka en paralelo

estoy usandospark 1.5.2. Necesito ejecutar un trabajo de transmisión por chispa con kafka como fuente de transmisión. Necesito leer de múltiples temas dentro de kafka y procesar cada tema de manera diferente. ¿Es una buena idea hacer esto en el ...

1 la respuesta

Aplicar la función a cada fila de Spark DataFrame

Estoy en Spark 1.3. Me gustaría aplicar una función a cada fila de un marco de datos. Esta función agrupa cada columna de la fila y devuelve una lista de los hash. dataframe.map(row => row.toSeq.map(col => col.hashCode))Recibo ...

1 la respuesta

Stackoverflow debido al largo linaje RDD

Tengo miles de archivos pequeños en HDFS. Necesita procesar un subconjunto de archivos un poco más pequeño (que nuevamente está en miles), fileList contiene una lista de rutas de archivos que deben procesarse. // fileList == list of filepaths in ...

4 la respuesta

¿Cómo crear un DataFrame a partir de filas mientras se conserva el esquema existente?

Si llamo mapa omapPartition y mi función recibe filas de PySpark, ¿cuál es la forma natural de crear un PySpark local o un Pandas DataFrame? ¿Algo que combine las filas y conserve el esquema? Actualmente hago algo como: def combine(partition): ...

1 la respuesta

Spark __getnewargs__ error

Estoy tratando de limpiar un Spark DataFrame asignándolo a RDD y luego nuevamente a DataFrame. Aquí hay un ejemplo de juguete: def replace_values(row,sub_rules): d = row.asDict() for col,old_val,new_val in sub_rules: if d[col] == old_val: d[col] ...

5 la respuesta

¿Por qué falla Spark con "Error al obtener broadcast_0_piece0 de broadcast_0" en modo local?

Estoy ejecutando este fragmento para ordenar un RDD de puntos, ordenar el RDD y tomar los puntos K más cercanos de un punto dado: def getKNN(sparkContext:SparkContext, k:Int, point2:Array[Double], pointsRDD:RDD[Array[Double]]): ...

9 la respuesta

Causado por: ERROR XSDB6: es posible que otra instancia de Derby ya haya arrancado la base de datos

Estoy tratando de ejecutar SparkSQL: val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc)Pero el error que obtengo está a continuación: ... 125 more Caused by: java.sql.SQLException: Another instance of Derby may have already booted ...

2 la respuesta

Transformación estilo pandas de datos agrupados en PySpark DataFrame

Si tenemos un marco de datos Pandas que consiste en una columna de categorías y una columna de valores, podemos eliminar la media en cada categoría haciendo lo siguiente: df["DemeanedValues"] = df.groupby("Category")["Values"].transform(lambda ...