Resultados de la búsqueda a petición "apache-spark"
Spark Streaming en un directorio S3
Así que tengo miles de eventos que se transmiten a través de Amazon Kinesis a SQS y luego se descargan en un directorio S3. Aproximadamente cada 10 minutos, se crea un nuevo archivo de texto para volcar los datos de Kinesis en S3. Me gustaría ...
¿Cómo definir la partición de DataFrame?
Comencé a usar Spark SQL y DataFrames en Spark 1.4.0. Quiero definir un particionador personalizado en DataFrames, en Scala, pero no veo cómo hacerlo. Una de las tablas de datos con las que estoy trabajando contiene una lista de transacciones, ...
Spark 1.4 aumenta la memoria maxResultSize
Estoy usando Spark 1.4 para mi investigación y estoy luchando con la configuración de memoria. Mi máquina tiene 16 GB de memoria, así que no hay problema, ya que el tamaño de mi archivo es de solo 300 MB. Sin embargo, cuando intento convertir ...
Spark: se fusionan muy lentamente, incluso los datos de salida son muy pequeños
Tengo el siguiente código en Spark: myData.filter(t => t.getMyEnum() == null) .map(t => t.toString) .saveAsTextFile("myOutput")Hay más de 2000 archivos en la carpeta myOutput, pero solo unos pocos t.getMyEnum () == nulo, por lo que solo hay muy ...
Leer múltiples archivos de un directorio usando Spark
Estoy tratando de resolver estoproblema [https://www.kaggle.com/c/axa-driver-telematics-analysis]en kaggle usando chispa: La jerarquía de entrada es así: drivers/{driver_id}/trip#.csv e.g., drivers/1/1.csv drivers/1/2.csv drivers/2/1.csvQuiero ...
¿Hay alguna manera de reescribir Spark RDD distinto para usar mapPartitions en lugar de distinto?
Tengo un RDD que es demasiado grande para realizar consistentemente una declaración distinta sin errores espurios (por ejemplo, la etapa SparkException falló 4 veces, ExecutorLostFailure, sistema de archivos HDFS cerrado, se alcanzó el número ...
eliminar duplicados de un marco de datos en pyspark
Estoy jugando con los marcos de datos en pyspark 1.4 localmente y tengo problemas para que el método de duplicados de caída funcione. Sigue devolviendo el error "AttributeError: el objeto 'list' no tiene el atributo 'dropDuplicates'". No estoy ...
Kubernetes 1.9 no puede inicializar SparkContext
Intentando ponerse al día con la documentación de Spark 2.3 sobre cómo implementar trabajos en un clúster Kubernetes ...
Detenga el contexto de transmisión en Spark Streaming después de un período de tiempo
Al crear una aplicación que recibe DStreams de Twitter, la única forma de detener el contexto de Streaming es deteniendo la ejecución. Me pregunto si hay una manera de establecer una hora y terminar el socket de transmisión sin detener toda la ...
Spark MlLib regresión lineal (mínimos cuadrados lineales) dando resultados aleatorios
Soy nuevo en chispa y aprendizaje automático en general. He seguido con éxito algunos de los tutoriales de Mllib, no puedo hacer que este funcione: Encontré el código de muestra ...