Resultados de la búsqueda a petición "rdd"
PySpark - Superposición de tiempo para objeto en RDD
Mi objetivo es agrupar objetos en función de la superposición de tiempo. Cada objeto en mirdd contiene unastart_time yend_time. Probablemente estoy haciendo esto de manera ineficiente, pero lo que planeo hacer es asignar una identificación de ...
Igualdad de DataFrame en Apache Spark
Asumirdf1 ydf2 son dosDataFrames en Apache Spark, calculado utilizando dos mecanismos diferentes, por ejemplo, Spark SQL frente a la API Scala / Java / Python. ¿Hay alguna forma idiomática de determinar si los dos marcos de datos ...
Spark especifica múltiples condiciones de columna para la unión de marco de datos
Cómo dar más condiciones de columna al unir dos marcos de datos. Por ejemplo, quiero ejecutar lo siguiente: val Lead_all = Leads.join(Utm_Master, Leaddetails.columns("LeadSource","Utm_Source","Utm_Medium","Utm_Campaign") ...
Cómo encontrar medianas y cuantiles usando Spark
¿Cómo puedo encontrar la mediana de unRDD de enteros que utilizan un método distribuido, IPython y Spark? losRDD tiene aproximadamente 700,000 elementos y, por lo tanto, es demasiado grande para recolectar y encontrar la mediana. Esta pregunta ...
Una lista como clave para reduceByKey de PySpark
Estoy intentando llamar a la función reduceByKey de pyspark en datos del formato(([a,b,c], 1), ([a,b,c], 1), ([a,d,b,e], 1), ... Parece que pyspark no aceptará una matriz como clave en la clave normal, reducción de valor simplemente aplicando ...
¿Cómo puedo unir eficientemente un rdd grande a un rdd muy grande en spark?
Tengo dos RDD. Un RDD tiene entre 5 y 10 millones de entradas y el otro RDD tiene entre 500 y 750 millones de entradas. En algún momento, tengo que unir estos dos rdds usando una clave común. val rddA = someData.rdd.map { x => (x.key, x); } // ...
¿Cómo imprimir la variable del acumulador desde dentro de la tarea (parece "funcionar" sin llamar al método de valor)?
Sé que las variables del acumulador son 'solo escritura' desde el punto de vista de las tareas, cuando están en ejecución en los nodos de trabajo. Estaba haciendo algunas pruebas sobre esto y me di cuenta de que soy capaz de imprimir el valor del ...
Explicación del método de plegado de la chispa RDD
Estoy ejecutando Spark-1.4.0 preconstruido para Hadoop-2.4 (en modo local) para calcular la suma de cuadrados de un DoubleRDD. Mi código Scala parece sc.parallelize(Array(2., 3.)).fold(0.0)((p, v) => p+v*v)Y dio un ...
No se puede declarar el acumulador de tipo cadena
Estoy tratando de definir una variable acumuladora de tipo String en Scala shell (controlador) pero sigo recibiendo el siguiente error: - scala> val myacc = sc.accumulator("Test") <console>:21: error: could not find implicit value for parameter ...
Foreach perezoso en un Spark RDD
Tengo un gran RDD de cadenas (obtenido a través de una unión de variossc.textFile(...)). Ahora quiero buscar una cadena dada en ese RDD, y quiero que la búsqueda se detenga cuando se encuentre una coincidencia "suficientemente buena". Podría ...