Resultados de la búsqueda a petición "apache-spark"
Spark Streaming: cómo no reiniciar el receptor después de la falla del receptor
Estamos utilizando un receptor de chispa personalizado que lee los datos transmitidos desde un enlace http proporcionado. Si el enlace http proporcionado es incorrecto, el receptor falla. El problema es que la chispa reiniciará continuamente el ...
¿Cómo repartir uniformemente en Spark?
Para probar cómo.repartition() funciona, ejecuté el siguiente código: rdd = sc.parallelize(range(100)) rdd.getNumPartitions()rdd.getNumPartitions() resultó en4. Entonces corrí: rdd = rdd.repartition(10) ...
Impulsar spark.yarn.executor.memoryOverhead
Estoy tratando de ejecutar un trabajo (py) Spark en EMR que procesará una gran cantidad de datos. Actualmente mi trabajo falla con el siguiente mensaje de error: Reason: Container killed by YARN for exceeding memory limits. 5.5 GB of 5.5 ...
Agregar frascos a un trabajo Spark - spark-submit
Es cierto ... se ha discutido bastante. Sin embargo, hay mucha ambigüedad y algunas de las respuestas proporcionadas ... incluida la duplicación de referencias jar en la configuración u opciones de jar / ejecutor / controlador. Los detalles ...
Cómo enumerar archivos en el directorio HDFS
¿Cómo enumero los archivos en el directorio HDFS? Esto es para enumerar archivos en el clúster Apache Spark usando Scala. Veo que hay una opción sc.textfile () pero eso también leerá el contenido. Quiero leer solo nombres de archivos. En ...
Particiones de tema de Kafka a la transmisión de Spark
Tengo algunos casos de uso que me gustaría aclarar, sobre la partición de temas de Kafka -> utilización de recursos de transmisión por chispa. Uso el modo independiente de chispa, por lo que solo las configuraciones que tengo son "número total ...
OUTER JOIN en 2 MARCOS DE DATOS: Spark Scala SqlContext
Recibo un error al hacer uniones externas en 2 marcos de datos. Estoy tratando de obtener el percentil. val sqlContext = new org.apache.spark.sql.SQLContext(sc) val df = sqlContext.jsonFile("temp.txt") val res = ...
Spark Task no serializable con la función de ventana de retraso
Me di cuenta de que después de usar una función de ventana sobre un DataFrame si llamo a un mapa () con una función, Spark devuelve una excepción "Tarea no serializable" Este es mi código: val hc:org.apache.spark.sql.hive.HiveContext = ...
Spark java.lang.StackOverflowError
Estoy usando chispa para calcular el pagerank de las reseñas de los usuarios, pero sigo recibiendo Sparkjava.lang.StackOverflowError cuando ejecuto mi código en un gran conjunto de datos (40k entradas). Sin embargo, cuando ejecuta el código en ...