Resultados de la búsqueda a petición "apache-spark"

3 la respuesta

Apache Spark: map vs mapPartitions?

2 la respuesta

Errores "./sbt/sbt assembly" "No es un comando válido: assembly" para el proyecto Apache Spark

3 la respuesta

Cómo ejecutar un programa de ejemplo de chispa en Intellij IDEA

Primero en la línea de comandos desde la raíz del proyecto de chispa descargado que ejecuté

6 la respuesta

Spark: mejor práctica para recuperar grandes datos de RDD a la máquina local

Tengo un gran RDD (1 gb) en el grupo de hilos. En la máquina local, que usa este clúster, solo tengo 512 mb. Me gustaría iterar sobre los valores en RDD en mi máquina local. No puedo usar collect (), porque crearía una matriz demasiado grande ...

2 la respuesta

Spark - Tarea no serializable: ¿Cómo trabajar con cierres de mapas complejos que llaman a clases / objetos externos?

Echa un vistazo a esta pregunta:Scala + Spark - Tarea no serializable: java.io.NotSerializableExceptionon. Al llamar a la función fuera del cierre solo en clases, no en ...

17 la respuesta

Importar pyspark en Python Shell

Esta es una copia de la pregunta de otra persona en otro foro que nunca fue respondida, así que pensé en volver a preguntarla aquí, ya que tengo el mismo problema. ...

4 la respuesta

error múltiple de SparkContexts en el tutorial

Estoy intentando ejecutar el tutorial muy básico de Spark + Python pyspark - ver http://spark.apache.org/docs/0.9.0/quick-start.html [http://spark.apache.org/docs/0.9.0/quick-start.html] Cuando intento inicializar un nuevo SparkContext, from ...

3 la respuesta

ejecutando script pyspark en EMR

Actualmente automatizo mis scripts Apache Spark Pyspark usando clústeres de EC2s usando el directorio Sparks preconfigurado ./ec2. Para fines de automatización y programación, me gustaría usar el módulo Boto EMR para enviar scripts ...

3 la respuesta

¿Cómo ejecuto Graphx con Python / pyspark?

Estoy intentando ejecutar Spark graphx con Python usando pyspark. Mi instalación parece correcta, ya que puedo ejecutar los tutoriales pyspark y los tutoriales GraphX (Java) perfectamente. Presumiblemente, dado que GraphX es parte de ...

4 la respuesta

Spark Context Textfile: carga múltiples archivos

Necesito procesar múltiples archivos dispersos en varios directorios. Me gustaría cargar todo esto en un solo RDD y luego realizar un mapa / reducirlo. Veo que SparkContext es capaz de cargar múltiples archivos desde un solo directorio usando ...