Resultados de la búsqueda a petición "apache-spark"

Marco de datos A (millones de registros) uno de la columna es create_date, modified_date Los registros del marco de datos B 500 tienen fecha_inicio y fecha_finalización Enfoque actual: Select a.*,b.* from a join b on a.create_date between ...

apache-spark-sql spark-dataframe scala spark-streaming

5 la respuesta

Spark DataFrame: ¿groupBy after orderBy mantiene ese orden?

Tengo un marco de datos Spark 2.0example con la siguiente estructura: id, hour, count id1, 0, 12 id1, 1, 55 .. id1, 23, 44 id2, 0, 12 id2, 1, 89 .. id2, 23, 34 etc.Contiene 24 entradas para cada id (una para cada hora del día) y se ordena por ...

hive sparkr r

2 la respuesta

¿Cómo deshacer datos con SparkR?

UtilizandoSparkR ¿Cómo se pueden "explotar" las matrices anidadas? He intentado usarexplode al igual que: dat <- nested_spark_df %>% mutate(a=explode(metadata)) %>% head()pero aunque lo anterior no provoca una excepción, no promueve los campos ...

apache-spark-sql python pyspark

2 la respuesta

Explotar en PySpark

Me gustaría transformar de un DataFrame que contiene listas de palabras en un DataFrame con cada palabra en su propia fila. ¿Cómo exploto en una columna en un DataFrame? Aquí hay un ejemplo con algunos de mis intentos en los que puede ...

amazon-s3 spark-streaming

1 la respuesta

El trabajo de transmisión con estado chispeante se cuelga en el punto de control a S3 después de un largo tiempo de actividad

Recientemente he estado haciendo pruebas de estrés con nuestra aplicación Spark Streaming. La prueba de esfuerzo consume alrededor de 20,000 mensajes / seg con tamaños de mensaje que varían entre 200bytes - 1K en Kafka, donde Spark Streaming está ...

python hadoop distributed-computing

1 la respuesta

¿Cómo equilibrar mis datos en las particiones?

Editar: La respuesta ayuda, pero describí mi solución en:problema de memoria en Spark [https://gsamaras.wordpress.com/code/memoryoverhead-issue-in-spark/]. Tengo un RDD con particiones 202092, que lee un conjunto de datos creado por otros. Puedo ...

apache-spark-sql dataframe

1 la respuesta

Número de particiones del marco de datos de Spark

¿Alguien puede explicar sobre el número de particiones que se crearán para un Spark Dataframe. Sé que para un RDD, mientras lo creamos podemos mencionar el número de particiones como a continuación. val RDD1 = sc.textFile("path" , 6)Pero para ...

pyspark apache-spark-sql

1 la respuesta

Descargue los datos de carga y agregue el nombre del archivo como columna del marco de datos

Estoy cargando algunos datos en Spark con una función de contenedor: def load_data( filename ): df = sqlContext.read.format("com.databricks.spark.csv")\ .option("delimiter", "\t")\ .option("header", "false")\ .option("mode", "DROPMALFORMED")\ ...

apache-spark-sql garbage-collection g1gc scala

1 la respuesta

Chispa: operación aleatoria que lleva a una larga pausa de GC

Estoy corriendoSpark 2 y estoy tratando de mezclar alrededor de 5 terabytes de json. Me encuentro con pausas muy largas de recolección de basura durante la mezcla de unDataset: val operations = ...

spark-dataframe pyspark python

5 la respuesta

Convierta la columna Spark DataFrame a la lista de Python

Trabajo en un marco de datos con dos columnas, mvv y count. +---+-----+ |mvv|count| +---+-----+ | 1 | 5 | | 2 | 9 | | 3 | 3 | | 4 | 1 |Me gustaría obtener dos listas que contengan valores mvv y valor de conteo. Algo como mvv = [1,2,3,4] count = ...

Página 17 de 165

15 161718 19

Resultados de la búsqueda a petición "apache-spark"

Spark mejor enfoque de búsqueda de datos para mejorar el rendimiento

Spark DataFrame: ¿groupBy after orderBy mantiene ese orden?

¿Cómo deshacer datos con SparkR?

Etiquetas Populares

Explotar en PySpark

El trabajo de transmisión con estado chispeante se cuelga en el punto de control a S3 después de un largo tiempo de actividad

¿Cómo equilibrar mis datos en las particiones?

Número de particiones del marco de datos de Spark

Descargue los datos de carga y agregue el nombre del archivo como columna del marco de datos

Chispa: operación aleatoria que lleva a una larga pausa de GC

Convierta la columna Spark DataFrame a la lista de Python

¡Eres muy activo! ¡Es genial!

Resultados de la búsqueda a petición "apache-spark"

Etiquetas Populares