Resultados de la búsqueda a petición "apache-spark"

4 la respuesta

¿Estás ejecutando PySpark e IDE como Spyder?

Podría ejecutar PySpark desde la línea de terminal y todo funciona bien. ~/spark-1.0.0-bin-hadoop1/bin$ ./pysparkBienvenido a ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /__ / .__/\_,_/_/ /_/\_\ version 1.0.0 /_/Uso de Python versión ...

2 la respuesta

¿Cuáles son las diferencias entre cortes y particiones de RDD?

Estoy usando la API Python de Spark y ejecuto Spark 0.8. Estoy almacenando un gran RDD de vectores de punto flotante y necesito realizar cálculos de un vector contra todo el conjunto. ¿Hay alguna diferencia entre cortes y particiones en un ...

5 la respuesta

Cómo cambiar la memoria por nodo para apache spark worker

Estoy configurando un clúster Apache Spark. Cuando ejecuto el clúster con 1 maestro y 3 esclavos, veo esto en la página del monitor maestro: Memory 2.0 GB (512.0 MB Used) 2.0 GB (512.0 MB Used) 6.0 GB (512.0 MB Used) Quiero aumentar la memoria ...

2 la respuesta

Cómo leer archivos gz en Spark usando wholeTextFiles

Tengo una carpeta que contiene muchos archivos .gz pequeños (archivos de texto csv comprimidos). Necesito leerlos en mi trabajo de Spark, pero la cuestión es que necesito hacer un procesamiento basado en la información que está en el nombre del ...

3 la respuesta

¿Cómo implementar un escucha / rastreador de trabajos personalizado en Spark?

Tengo una clase como la siguiente, y cuando ejecuto esto a través de la línea de comando quiero ver el estado del progreso. algo como, 10% completed... 30% completed... 100% completed...Job done!Estoy usando spark 1.0 en hilo y usando Java ...

1 la respuesta

La función de mapa de RDD no se invoca en Scala Spark

Cuando llamo a la función de mapa de un RDD no se está aplicando. Funciona como se esperaba para un scala.collection.immutable.List pero no para un RDD. Aquí hay un código para ilustrar: val list = List ("a" , "d" , "c" , "d") list.map(l => { ...

5 la respuesta

Cómo configurar la dirección maestra para los ejemplos de Spark desde la línea de comandos

NOTA: El autor está buscando respuestas para configurar el Spark Master cuando ejecuta ejemplos de Spark que implicanNocambios en el código fuente, sino solo opciones que se pueden hacer desde la línea de comandos si es posible. Consideremos el ...

2 la respuesta

Crear un diccionario grande en pyspark

Estoy tratando de resolver el siguiente problema usando pyspark. Tengo un archivo en hdfs en el formato que es un volcado de la tabla de búsqueda. key1, value1 key2, value2 ...Quiero cargar esto en el diccionario de Python en pyspark y usarlo ...

8 la respuesta

Apache Spark: la cantidad de núcleos frente a la cantidad de ejecutores

Estoy tratando de entender la relación entre la cantidad de núcleos y la cantidad de ejecutores cuando se ejecuta un trabajo de Spark en YARN. El entorno de prueba es el siguiente: Número de nodos de datos: 3Especificaciones de la máquina del ...

1 la respuesta

Obteniendo métricas de regresión múltiple a la vez

Estoy trabajando con el paquete ML para fines de regresión y obtengo buenos resultados en mis datos. Ahora estoy tratando de obtener varias métricas a la vez, ya que estoy haciendo lo que sugieren los ejemplos ...