Resultados de la búsqueda a petición "apache-spark"

Así que tengo miles de eventos que se transmiten a través de Amazon Kinesis a SQS y luego se descargan en un directorio S3. Aproximadamente cada 10 minutos, se crea un nuevo archivo de texto para volcar los datos de Kinesis en S3. Me gustaría ...

partitioning scala dataframe apache-spark-sql

5 la respuesta

¿Cómo definir la partición de DataFrame?

Comencé a usar Spark SQL y DataFrames en Spark 1.4.0. Quiero definir un particionador personalizado en DataFrames, en Scala, pero no veo cómo hacerlo. Una de las tablas de datos con las que estoy trabajando contiene una lista de transacciones, ...

pyspark python memory jupyter

7 la respuesta

Spark 1.4 aumenta la memoria maxResultSize

Estoy usando Spark 1.4 para mi investigación y estoy luchando con la configuración de memoria. Mi máquina tiene 16 GB de memoria, así que no hay problema, ya que el tamaño de mi archivo es de solo 300 MB. Sin embargo, cuando intento convertir ...

coalesce scala

1 la respuesta

Spark: se fusionan muy lentamente, incluso los datos de salida son muy pequeños

Tengo el siguiente código en Spark: myData.filter(t => t.getMyEnum() == null) .map(t => t.toString) .saveAsTextFile("myOutput")Hay más de 2000 archivos en la carpeta myOutput, pero solo unos pocos t.getMyEnum () == nulo, por lo que solo hay muy ...

kaggle scala hadoop

1 la respuesta

Leer múltiples archivos de un directorio usando Spark

Estoy tratando de resolver estoproblema [https://www.kaggle.com/c/axa-driver-telematics-analysis]en kaggle usando chispa: La jerarquía de entrada es así: drivers/{driver_id}/trip#.csv e.g., drivers/1/1.csv drivers/1/2.csv drivers/2/1.csvQuiero ...

scala rdd shuffle distinct

1 la respuesta

¿Hay alguna manera de reescribir Spark RDD distinto para usar mapPartitions en lugar de distinto?

Tengo un RDD que es demasiado grande para realizar consistentemente una declaración distinta sin errores espurios (por ejemplo, la etapa SparkException falló 4 veces, ExecutorLostFailure, sistema de archivos HDFS cerrado, se alcanzó el número ...

pyspark python

2 la respuesta

eliminar duplicados de un marco de datos en pyspark

Estoy jugando con los marcos de datos en pyspark 1.4 localmente y tengo problemas para que el método de duplicados de caída funcione. Sigue devolviendo el error "AttributeError: el objeto 'list' no tiene el atributo 'dropDuplicates'". No estoy ...

kubernetes

3 la respuesta

Kubernetes 1.9 no puede inicializar SparkContext

Intentando ponerse al día con la documentación de Spark 2.3 sobre cómo implementar trabajos en un clúster Kubernetes ...

stream twitter4j spark-streaming

2 la respuesta

Detenga el contexto de transmisión en Spark Streaming después de un período de tiempo

Al crear una aplicación que recibe DStreams de Twitter, la única forma de detener el contexto de Streaming es deteniendo la ejecución. Me pregunto si hay una manera de establecer una hora y terminar el socket de transmisión sin detener toda la ...

apache-spark-mllib machine-learning

2 la respuesta

Spark MlLib regresión lineal (mínimos cuadrados lineales) dando resultados aleatorios

Soy nuevo en chispa y aprendizaje automático en general. He seguido con éxito algunos de los tutoriales de Mllib, no puedo hacer que este funcione: Encontré el código de muestra ...

Página 107 de 165

105 106107108 109

Resultados de la búsqueda a petición "apache-spark"

Spark Streaming en un directorio S3

¿Cómo definir la partición de DataFrame?

Spark 1.4 aumenta la memoria maxResultSize

Etiquetas Populares

Spark: se fusionan muy lentamente, incluso los datos de salida son muy pequeños

Leer múltiples archivos de un directorio usando Spark

¿Hay alguna manera de reescribir Spark RDD distinto para usar mapPartitions en lugar de distinto?

eliminar duplicados de un marco de datos en pyspark

Kubernetes 1.9 no puede inicializar SparkContext

Detenga el contexto de transmisión en Spark Streaming después de un período de tiempo

Spark MlLib regresión lineal (mínimos cuadrados lineales) dando resultados aleatorios

¡Eres muy activo! ¡Es genial!

Resultados de la búsqueda a petición "apache-spark"

Etiquetas Populares