Resultados de la búsqueda a petición "apache-spark"

Estamos utilizando un receptor de chispa personalizado que lee los datos transmitidos desde un enlace http proporcionado. Si el enlace http proporcionado es incorrecto, el receptor falla. El problema es que la chispa reiniciará continuamente el ...

pyspark

1 la respuesta

¿Cómo repartir uniformemente en Spark?

Para probar cómo.repartition() funciona, ejecuté el siguiente código: rdd = sc.parallelize(range(100)) rdd.getNumPartitions()rdd.getNumPartitions() resultó en4. Entonces corrí: rdd = rdd.repartition(10) ...

pyspark amazon-web-services amazon-emr emr

2 la respuesta

Impulsar spark.yarn.executor.memoryOverhead

Estoy tratando de ejecutar un trabajo (py) Spark en EMR que procesará una gran cantidad de datos. Actualmente mi trabajo falla con el siguiente mensaje de error: Reason: Container killed by YARN for exceeding memory limits. 5.5 GB of 5.5 ...

jar java scala spark-submit

3 la respuesta

Agregar frascos a un trabajo Spark - spark-submit

Es cierto ... se ha discutido bastante. Sin embargo, hay mucha ambigüedad y algunas de las respuestas proporcionadas ... incluida la duplicación de referencias jar en la configuración u opciones de jar / ejecutor / controlador. Los detalles ...

hdfs hadoop scala

2 la respuesta

Cómo enumerar archivos en el directorio HDFS

¿Cómo enumero los archivos en el directorio HDFS? Esto es para enumerar archivos en el clúster Apache Spark usando Scala. Veo que hay una opción sc.textfile () pero eso también leerá el contenido. Quiero leer solo nombres de archivos. En ...

spark-streaming apache-kafka

1 la respuesta

Particiones de tema de Kafka a la transmisión de Spark

Tengo algunos casos de uso que me gustaría aclarar, sobre la partición de temas de Kafka -> utilización de recursos de transmisión por chispa. Uso el modo independiente de chispa, por lo que solo las configuraciones que tengo son "número total ...

apache-kafka

1 la respuesta

¿Puedo crear un RDD a partir de un tema kafka si no conozco el desplazamiento hasta?

...

join apache-spark-sql spark-dataframe scala

0 la respuesta

OUTER JOIN en 2 MARCOS DE DATOS: Spark Scala SqlContext

Recibo un error al hacer uniones externas en 2 marcos de datos. Estoy tratando de obtener el percentil. val sqlContext = new org.apache.spark.sql.SQLContext(sc) val df = sqlContext.jsonFile("temp.txt") val res = ...

apache-spark-sql scala window-functions serialization

1 la respuesta

Spark Task no serializable con la función de ventana de retraso

Me di cuenta de que después de usar una función de ventana sobre un DataFrame si llamo a un mapa () con una función, Spark devuelve una excepción "Tarea no serializable" Este es mi código: val hc:org.apache.spark.sql.hive.HiveContext = ...

java mapreduce

3 la respuesta

Spark java.lang.StackOverflowError

Estoy usando chispa para calcular el pagerank de las reseñas de los usuarios, pero sigo recibiendo Sparkjava.lang.StackOverflowError cuando ejecuto mi código en un gran conjunto de datos (40k entradas). Sin embargo, cuando ejecuta el código en ...

Página 15 de 165

13 141516 17

Resultados de la búsqueda a petición "apache-spark"

Spark Streaming: cómo no reiniciar el receptor después de la falla del receptor

¿Cómo repartir uniformemente en Spark?

Impulsar spark.yarn.executor.memoryOverhead

Etiquetas Populares

Agregar frascos a un trabajo Spark - spark-submit

Cómo enumerar archivos en el directorio HDFS

Particiones de tema de Kafka a la transmisión de Spark

¿Puedo crear un RDD a partir de un tema kafka si no conozco el desplazamiento hasta?

OUTER JOIN en 2 MARCOS DE DATOS: Spark Scala SqlContext

Spark Task no serializable con la función de ventana de retraso

Spark java.lang.StackOverflowError

¡Eres muy activo! ¡Es genial!

Resultados de la búsqueda a petición "apache-spark"

Etiquetas Populares