Resultados de la búsqueda a petición "apache-spark"

Mi objetivo es importar un archivo .py personalizado en mi aplicación spark y llamar a algunas de las funciones incluidas dentro de ese archivo Esto es lo que probé: Tengo un archivo de prueba llamadoTest.pyque se ve de la siguiente ...

rdd hadoop scala

8 la respuesta

¿Qué es RDD en chispa?

La definición dice: RDD es una colección distribuida inmutable de objetos No entiendo muy bien qué significa. ¿Es como los datos (objetos particionados) almacenados en el disco duro? Si es así, ¿cómo es que los RDD pueden tener clases definidas ...

spark-streaming apache-kafka

2 la respuesta

Spark: procesando múltiples temas kafka en paralelo

estoy usandospark 1.5.2. Necesito ejecutar un trabajo de transmisión por chispa con kafka como fuente de transmisión. Necesito leer de múltiples temas dentro de kafka y procesar cada tema de manera diferente. ¿Es una buena idea hacer esto en el ...

apache-spark-sql

1 la respuesta

Aplicar la función a cada fila de Spark DataFrame

Estoy en Spark 1.3. Me gustaría aplicar una función a cada fila de un marco de datos. Esta función agrupa cada columna de la fila y devuelve una lista de los hash. dataframe.map(row => row.toSeq.map(col => col.hashCode))Recibo ...

rdd scala

1 la respuesta

Stackoverflow debido al largo linaje RDD

Tengo miles de archivos pequeños en HDFS. Necesita procesar un subconjunto de archivos un poco más pequeño (que nuevamente está en miles), fileList contiene una lista de rutas de archivos que deben procesarse. // fileList == list of filepaths in ...

python pyspark-sql pandas pyspark

4 la respuesta

¿Cómo crear un DataFrame a partir de filas mientras se conserva el esquema existente?

Si llamo mapa omapPartition y mi función recibe filas de PySpark, ¿cuál es la forma natural de crear un PySpark local o un Pandas DataFrame? ¿Algo que combine las filas y conserve el esquema? Actualmente hago algo como: def combine(partition): ...

pyspark python

1 la respuesta

Spark getnewargs error

Estoy tratando de limpiar un Spark DataFrame asignándolo a RDD y luego nuevamente a DataFrame. Aquí hay un ejemplo de juguete: def replace_values(row,sub_rules): d = row.asDict() for col,old_val,new_val in sub_rules: if d[col] == old_val: d[col] ...

java scalatest scala intellij-idea

5 la respuesta

¿Por qué falla Spark con "Error al obtener broadcast_0_piece0 de broadcast_0" en modo local?

Estoy ejecutando este fragmento para ordenar un RDD de puntos, ordenar el RDD y tomar los puntos K más cercanos de un punto dado: def getKNN(sparkContext:SparkContext, k:Int, point2:Array[Double], pointsRDD:RDD[Array[Double]]): ...

hadoop derby

9 la respuesta

Causado por: ERROR XSDB6: es posible que otra instancia de Derby ya haya arrancado la base de datos

Estoy tratando de ejecutar SparkSQL: val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc)Pero el error que obtengo está a continuación: ... 125 more Caused by: java.sql.SQLException: Another instance of Derby may have already booted ...

pyspark python apache-spark-sql pandas

2 la respuesta

Transformación estilo pandas de datos agrupados en PySpark DataFrame

Si tenemos un marco de datos Pandas que consiste en una columna de categorías y una columna de valores, podemos eliminar la media en cada categoría haciendo lo siguiente: df["DemeanedValues"] = df.groupby("Category")["Values"].transform(lambda ...

Página 140 de 165

138 139140141 142

Resultados de la búsqueda a petición "apache-spark"

El archivo .py de importación de Pyspark no funciona

¿Qué es RDD en chispa?

Spark: procesando múltiples temas kafka en paralelo

Etiquetas Populares

Aplicar la función a cada fila de Spark DataFrame

Stackoverflow debido al largo linaje RDD

¿Cómo crear un DataFrame a partir de filas mientras se conserva el esquema existente?

Spark getnewargs error

¿Por qué falla Spark con "Error al obtener broadcast_0_piece0 de broadcast_0" en modo local?

Causado por: ERROR XSDB6: es posible que otra instancia de Derby ya haya arrancado la base de datos

Transformación estilo pandas de datos agrupados en PySpark DataFrame

¡Eres muy activo! ¡Es genial!

Resultados de la búsqueda a petición "apache-spark"

Etiquetas Populares