Resultados de la búsqueda a petición "apache-spark"
Cómo ejecutar un programa de ejemplo de chispa en Intellij IDEA
Primero en la línea de comandos desde la raíz del proyecto de chispa descargado que ejecuté
Spark: mejor práctica para recuperar grandes datos de RDD a la máquina local
Tengo un gran RDD (1 gb) en el grupo de hilos. En la máquina local, que usa este clúster, solo tengo 512 mb. Me gustaría iterar sobre los valores en RDD en mi máquina local. No puedo usar collect (), porque crearía una matriz demasiado grande ...
Spark - Tarea no serializable: ¿Cómo trabajar con cierres de mapas complejos que llaman a clases / objetos externos?
Echa un vistazo a esta pregunta:Scala + Spark - Tarea no serializable: java.io.NotSerializableExceptionon. Al llamar a la función fuera del cierre solo en clases, no en ...
Importar pyspark en Python Shell
Esta es una copia de la pregunta de otra persona en otro foro que nunca fue respondida, así que pensé en volver a preguntarla aquí, ya que tengo el mismo problema. ...
error múltiple de SparkContexts en el tutorial
Estoy intentando ejecutar el tutorial muy básico de Spark + Python pyspark - ver http://spark.apache.org/docs/0.9.0/quick-start.html [http://spark.apache.org/docs/0.9.0/quick-start.html] Cuando intento inicializar un nuevo SparkContext, from ...
ejecutando script pyspark en EMR
Actualmente automatizo mis scripts Apache Spark Pyspark usando clústeres de EC2s usando el directorio Sparks preconfigurado ./ec2. Para fines de automatización y programación, me gustaría usar el módulo Boto EMR para enviar scripts ...
¿Cómo ejecuto Graphx con Python / pyspark?
Estoy intentando ejecutar Spark graphx con Python usando pyspark. Mi instalación parece correcta, ya que puedo ejecutar los tutoriales pyspark y los tutoriales GraphX (Java) perfectamente. Presumiblemente, dado que GraphX es parte de ...
Spark Context Textfile: carga múltiples archivos
Necesito procesar múltiples archivos dispersos en varios directorios. Me gustaría cargar todo esto en un solo RDD y luego realizar un mapa / reducirlo. Veo que SparkContext es capaz de cargar múltiples archivos desde un solo directorio usando ...