Resultados de la búsqueda a petición "partitioning"
¿Cuántas particiones de tabla son demasiadas en Postgres?
Estoy particionando una tabla muy grande que contiene datos temporales, y considerando qué granularidad debo hacer las particiones. Los Postgres documentación de partición [http://www.postgresql.org/docs/8.3/interactive/ddl-partitioning.html] ...
Particionar en chispa mientras lee desde RDBMS a través de JDBC
Estoy ejecutando spark en modo de clúster y leyendo datos de RDBMS a través de JDBC. Según chispadocs [http://spark.apache.org/docs/latest/sql-programming-guide.html#jdbc-to-other-databases] , estos parámetros de partición describen cómo ...
en postgresql, ¿son más eficientes las particiones o múltiples bases de datos?
tiene una aplicación en la que muchas empresas publican información. los datos de cada empresa son independientes; no hay superposición de datos. en cuanto al rendimiento, ¿es mejor: Mantenga la identificación de la compañía en cada fila de ...
Divida una lista de números en n fragmentos de modo que los fragmentos tengan (casi) sumas iguales y conserven el orden original
Este no es el problema de particionamiento estándar, ya que necesito mantener el orden de los elementos en la lista. Entonces, por ejemplo, si tengo una lista [1, 6, 2, 3, 4, 1, 7, 6, 4]y quiero dos trozos, entonces la división debería ...
¿Cómo obtener el número de elementos en la partición?
¿Hay alguna forma de obtener el número de elementos en una partición RDD de chispa, dada la ID de la partición? Sin escanear toda la partición. Algo como esto: Rdd.partitions().get(index).size()Excepto que no veo una API para la ...
Determinar el número óptimo de particiones Spark en función de los trabajadores, los núcleos y el tamaño del Marco de datos
Hay varios conceptos similares pero diferentes en Spark-land que rodean cómo el trabajo se cultiva en diferentes nodos y se ejecuta simultáneamente. Específicamente, hay: El nodo Spark Driver sparkDriverCount) El número de nodos de trabajo ...
Pandas: Muestreo de un marco de datos [duplicado]
Esta pregunta ya tiene una respuesta aquí: ¿Cómo dividir los datos en 3 conjuntos (tren, validación y prueba)? [/questions/38250710/how-to-split-data-into-3-sets-train-validation-and-test] 5 respuestas Estoy tratando de leer un archivo CSV ...
Esquema de particionamiento predeterminado en Spark
Cuando ejecuto el siguiente comando: scala> val rdd = sc.parallelize(List((1,2),(3,4),(3,6)),4).partitionBy(new HashPartitioner(10)).persist() rdd: org.apache.spark.rdd.RDD[(Int, Int)] = ShuffledRDD[10] at partitionBy at <console>:22 scala> ...
Cómo particionar las tablas de Azure que se usan para almacenar registros
Recientemente hemos actualizado nuestro registro para usar el almacenamiento de tablas de Azure, que debido a su bajo costo y alto rendimiento al realizar consultas por fila y partición es muy adecuado para este propósito. Estamos tratando de ...
¿Cómo funciona la partición en Spark?
Estoy tratando de entender cómo se realiza la partición en Apache Spark. ¿Pueden ayudarme por favor? Aquí está el escenario: un maestro y dos nodos con 1 núcleo cada unoun archivocount.txt de 10 MB de tamaño¿Cuántas particiones crea lo ...