Resultados de la búsqueda a petición "partitioning"
Cómo manejar la clave externa durante la partición
Estoy trabajando en la gestión de flotas. Tengo una gran cantidad de escrituras en una tabla de ubicación con las siguientes columnasfechahorano vehiculo.lar...
¿Cómo funciona la partición en Spark?
Estoy tratando de entender cómo se realiza la partición en Apache Spark. ¿Pueden ayudarme por favor? Aquí está el escenario: un maestro y dos nodos con 1 núcleo cada unoun archivocount.txt de 10 MB de tamaño¿Cuántas particiones crea lo ...
Cómo particionar las tablas de Azure que se usan para almacenar registros
Recientemente hemos actualizado nuestro registro para usar el almacenamiento de tablas de Azure, que debido a su bajo costo y alto rendimiento al realizar consultas por fila y partición es muy adecuado para este propósito. Estamos tratando de ...
En Apache Spark, ¿por qué RDD.union no conserva el particionador?
Como todos saben, los particionadores en Spark tienen un gran impacto en el rendimiento en cualquier operación "amplia", por lo que generalmente se personaliza en las operaciones. Estaba experimentando con el siguiente código: val rdd1 = ...
Optimizar una función de partición
Aquí está el código, en python: # function for pentagonal numbers def pent (n): return int((0.5*n)*((3*n)-1)) # function for generalized pentagonal numbers def gen_pent (n): return pent(int(((-1)**(n+1))*(round((n+1)/2)))) # array for storing ...
¿Cómo particionar una tabla por mes (“Ambos” AÑO Y MES) y crear particiones mensuales automáticamente?
Estoy tratando de dividir una tabla por ambosAñoyMes. La columna a través de la cual dividiré es una columna de tipo de fecha y hora con un formato ISO ('20150110', 20150202 ', etc.). Por ejemplo, tengo datos de ventas para 2010, 2011, 2012. Me ...
¿Cómo particionar una matriz de enteros de una manera que minimice el máximo de la suma de cada partición?
Las entradas son una matriz A de enteros positivos o nulos y otro entero K. Deberíamos dividir A en K bloques de elementos consecutivos (por "partición" quiero decir que cada elemento de A pertenece a algún bloque y 2 bloques diferentes no ...
Esquema de particionamiento predeterminado en Spark
Cuando ejecuto el siguiente comando: scala> val rdd = sc.parallelize(List((1,2),(3,4),(3,6)),4).partitionBy(new HashPartitioner(10)).persist() rdd: org.apache.spark.rdd.RDD[(Int, Int)] = ShuffledRDD[10] at partitionBy at <console>:22 scala> ...
Spark Streaming: ¿Cómo puedo agregar más particiones a mi DStream?
Tengo una aplicación de transmisión por chispa que se ve así: val message = KafkaUtils.createStream(...).map(_._2) message.foreachRDD( rdd => { if (!rdd.isEmpty){ val kafkaDF = sqlContext.read.json(rdd) kafkaDF.foreachPartition( i =>{ ...