Resultados de la búsqueda a petición "apache-spark"

5 la respuesta

Cómo asignar números contiguos únicos a elementos en un Spark RDD

Tengo un conjunto de datos de(user, product, review), y quiero alimentarlo al algoritmo ALS de mllib. El algoritmo necesita que los usuarios y los productos sean números, mientras que los míos son los nombres de usuario de String y los SKU de ...

1 la respuesta

Los nombres de las columnas del marco de datos entran en conflicto con. (Punto)

Tengo un DataFramedf que tiene este esquema: root |-- person.name: string (nullable = true) |-- person: struct (nullable = true) | |-- age: long (nullable = true) | |-- name: string (nullable = true) Cuando lo hagodf.select("person.name") ...

10 la respuesta

Escribir en múltiples salidas mediante la tecla Spark: un trabajo de Spark

¿Cómo puede escribir en múltiples salidas dependientes de la clave usando Spark en un solo trabajo? Relacionado:Escriba en múltiples salidas por clave Scalding Hadoop, un ...

2 la respuesta

java + spark: org.apache.spark.SparkException: trabajo cancelado: tarea no serializable: java.io.NotSerializableException

Soy nuevo en la chispa, y estaba tratando de ejecutar el ejemplo JavaSparkPi.java, funciona bien, pero debido a que tengo que usar esto en otro Java, copio todas las cosas de main a un método en la clase e intento llamar al método en general, ...

9 la respuesta

Cómo leer la entrada de S3 en una aplicación de clúster EC2 de Spark Streaming

Estoy tratando de hacer que mi aplicación Spark Streaming lea su entrada de un directorio S3, pero sigo recibiendo esta excepción después de iniciarla con el script spark-submit: Exception in thread "main" java.lang.IllegalArgumentException: AWS ...

1 la respuesta

¿Cómo hacer que sea más fácil implementar mi Jar to Spark Cluster en modo independiente?

Tengo un grupo pequeño con 3 máquinas, y otra máquina para desarrollar y probar. Al desarrollar, establezcoSparkContext alocal. Cuando todo está bien, quiero implementar el archivo Jar que construyo en cada nodo. Básicamente muevo manualmente ...

1 la respuesta

Escribir y leer matrices de bytes sin procesar en Spark - usando Sequence File SequenceFile

Como escribesRDD[Array[Byte]] a un archivo usando Apache Spark y leerlo de nuevo?

3 la respuesta

¿Cuál es la forma eficiente de actualizar el valor dentro del RDD de Spark?

Estoy escribiendo un programa relacionado con gráficos enScala conSpark. El conjunto de datos tiene 4 millones de nodos y 4 millones de bordes (puede tratar esto como un árbol), pero por cada vez (unIteration), Solo edito una parte de él, es ...

12 la respuesta

¿Cómo convierto el archivo csv a rdd

Soy nuevo en chispa. Quiero realizar algunas operaciones en datos particulares en un registro CSV. Estoy tratando de leer un archivo CSV y convertirlo a RDD. Mis operaciones adicionales se basan en el encabezado proporcionado en el archivo ...

1 la respuesta

¿Cómo hacer que Spark Streaming escriba su salida para que Impala pueda leerlo?

Tengo el siguiente problema con Spark Streaming API. Actualmente estoy transmitiendo datos de entrada a través de Flume a Spark Streaming, con lo que planeo hacer un preprocesamiento de los datos. Luego, me gustaría guardar los datos en el ...