Resultados de la búsqueda a petición "apache-spark"

2 la respuesta

Spark mejor enfoque de búsqueda de datos para mejorar el rendimiento

Marco de datos A (millones de registros) uno de la columna es create_date, modified_date Los registros del marco de datos B 500 tienen fecha_inicio y fecha_finalización Enfoque actual: Select a.*,b.* from a join b on a.create_date between ...

5 la respuesta

Spark DataFrame: ¿groupBy after orderBy mantiene ese orden?

Tengo un marco de datos Spark 2.0example con la siguiente estructura: id, hour, count id1, 0, 12 id1, 1, 55 .. id1, 23, 44 id2, 0, 12 id2, 1, 89 .. id2, 23, 34 etc.Contiene 24 entradas para cada id (una para cada hora del día) y se ordena por ...

2 la respuesta

¿Cómo deshacer datos con SparkR?

UtilizandoSparkR ¿Cómo se pueden "explotar" las matrices anidadas? He intentado usarexplode al igual que: dat <- nested_spark_df %>% mutate(a=explode(metadata)) %>% head()pero aunque lo anterior no provoca una excepción, no promueve los campos ...

2 la respuesta

Explotar en PySpark

Me gustaría transformar de un DataFrame que contiene listas de palabras en un DataFrame con cada palabra en su propia fila. ¿Cómo exploto en una columna en un DataFrame? Aquí hay un ejemplo con algunos de mis intentos en los que puede ...

1 la respuesta

El trabajo de transmisión con estado chispeante se cuelga en el punto de control a S3 después de un largo tiempo de actividad

Recientemente he estado haciendo pruebas de estrés con nuestra aplicación Spark Streaming. La prueba de esfuerzo consume alrededor de 20,000 mensajes / seg con tamaños de mensaje que varían entre 200bytes - 1K en Kafka, donde Spark Streaming está ...

1 la respuesta

¿Cómo equilibrar mis datos en las particiones?

Editar: La respuesta ayuda, pero describí mi solución en:problema de memoria en Spark [https://gsamaras.wordpress.com/code/memoryoverhead-issue-in-spark/]. Tengo un RDD con particiones 202092, que lee un conjunto de datos creado por otros. Puedo ...

1 la respuesta

Número de particiones del marco de datos de Spark

¿Alguien puede explicar sobre el número de particiones que se crearán para un Spark Dataframe. Sé que para un RDD, mientras lo creamos podemos mencionar el número de particiones como a continuación. val RDD1 = sc.textFile("path" , 6)Pero para ...

1 la respuesta

Descargue los datos de carga y agregue el nombre del archivo como columna del marco de datos

Estoy cargando algunos datos en Spark con una función de contenedor: def load_data( filename ): df = sqlContext.read.format("com.databricks.spark.csv")\ .option("delimiter", "\t")\ .option("header", "false")\ .option("mode", "DROPMALFORMED")\ ...

1 la respuesta

Chispa: operación aleatoria que lleva a una larga pausa de GC

Estoy corriendoSpark 2 y estoy tratando de mezclar alrededor de 5 terabytes de json. Me encuentro con pausas muy largas de recolección de basura durante la mezcla de unDataset: val operations = ...

5 la respuesta

Convierta la columna Spark DataFrame a la lista de Python

Trabajo en un marco de datos con dos columnas, mvv y count. +---+-----+ |mvv|count| +---+-----+ | 1 | 5 | | 2 | 9 | | 3 | 3 | | 4 | 1 |Me gustaría obtener dos listas que contengan valores mvv y valor de conteo. Algo como mvv = [1,2,3,4] count = ...