Resultados de la búsqueda a petición "rdd"

1 la respuesta

PySpark - Superposición de tiempo para objeto en RDD

Mi objetivo es agrupar objetos en función de la superposición de tiempo. Cada objeto en mirdd contiene unastart_time yend_time. Probablemente estoy haciendo esto de manera ineficiente, pero lo que planeo hacer es asignar una identificación de ...

5 la respuesta

Igualdad de DataFrame en Apache Spark

Asumirdf1 ydf2 son dosDataFrames en Apache Spark, calculado utilizando dos mecanismos diferentes, por ejemplo, Spark SQL frente a la API Scala / Java / Python. ¿Hay alguna forma idiomática de determinar si los dos marcos de datos ...

7 la respuesta

Spark especifica múltiples condiciones de columna para la unión de marco de datos

Cómo dar más condiciones de columna al unir dos marcos de datos. Por ejemplo, quiero ejecutar lo siguiente: val Lead_all = Leads.join(Utm_Master, Leaddetails.columns("LeadSource","Utm_Source","Utm_Medium","Utm_Campaign") ...

4 la respuesta

Cómo encontrar medianas y cuantiles usando Spark

¿Cómo puedo encontrar la mediana de unRDD de enteros que utilizan un método distribuido, IPython y Spark? losRDD tiene aproximadamente 700,000 elementos y, por lo tanto, es demasiado grande para recolectar y encontrar la mediana. Esta pregunta ...

1 la respuesta

Una lista como clave para reduceByKey de PySpark

Estoy intentando llamar a la función reduceByKey de pyspark en datos del formato(([a,b,c], 1), ([a,b,c], 1), ([a,d,b,e], 1), ... Parece que pyspark no aceptará una matriz como clave en la clave normal, reducción de valor simplemente aplicando ...

1 la respuesta

¿Cómo puedo unir eficientemente un rdd grande a un rdd muy grande en spark?

Tengo dos RDD. Un RDD tiene entre 5 y 10 millones de entradas y el otro RDD tiene entre 500 y 750 millones de entradas. En algún momento, tengo que unir estos dos rdds usando una clave común. val rddA = someData.rdd.map { x => (x.key, x); } // ...

1 la respuesta

¿Cómo imprimir la variable del acumulador desde dentro de la tarea (parece "funcionar" sin llamar al método de valor)?

Sé que las variables del acumulador son 'solo escritura' desde el punto de vista de las tareas, cuando están en ejecución en los nodos de trabajo. Estaba haciendo algunas pruebas sobre esto y me di cuenta de que soy capaz de imprimir el valor del ...

1 la respuesta

Explicación del método de plegado de la chispa RDD

Estoy ejecutando Spark-1.4.0 preconstruido para Hadoop-2.4 (en modo local) para calcular la suma de cuadrados de un DoubleRDD. Mi código Scala parece sc.parallelize(Array(2., 3.)).fold(0.0)((p, v) => p+v*v)Y dio un ...

1 la respuesta

No se puede declarar el acumulador de tipo cadena

Estoy tratando de definir una variable acumuladora de tipo String en Scala shell (controlador) pero sigo recibiendo el siguiente error: - scala> val myacc = sc.accumulator("Test") <console>:21: error: could not find implicit value for parameter ...

2 la respuesta

Foreach perezoso en un Spark RDD

Tengo un gran RDD de cadenas (obtenido a través de una unión de variossc.textFile(...)). Ahora quiero buscar una cadena dada en ese RDD, y quiero que la búsqueda se detenga cuando se encuentre una coincidencia "suficientemente buena". Podría ...