Resultados de la búsqueda a petición "partitioning"

4 la respuesta

¿Cuántas particiones de tabla son demasiadas en Postgres?

Estoy particionando una tabla muy grande que contiene datos temporales, y considerando qué granularidad debo hacer las particiones. Los Postgres documentación de partición [http://www.postgresql.org/docs/8.3/interactive/ddl-partitioning.html] ...

1 la respuesta

Particionar en chispa mientras lee desde RDBMS a través de JDBC

Estoy ejecutando spark en modo de clúster y leyendo datos de RDBMS a través de JDBC. Según chispadocs [http://spark.apache.org/docs/latest/sql-programming-guide.html#jdbc-to-other-databases] , estos parámetros de partición describen cómo ...

2 la respuesta

en postgresql, ¿son más eficientes las particiones o múltiples bases de datos?

tiene una aplicación en la que muchas empresas publican información. los datos de cada empresa son independientes; no hay superposición de datos. en cuanto al rendimiento, ¿es mejor: Mantenga la identificación de la compañía en cada fila de ...

7 la respuesta

Divida una lista de números en n fragmentos de modo que los fragmentos tengan (casi) sumas iguales y conserven el orden original

Este no es el problema de particionamiento estándar, ya que necesito mantener el orden de los elementos en la lista. Entonces, por ejemplo, si tengo una lista [1, 6, 2, 3, 4, 1, 7, 6, 4]y quiero dos trozos, entonces la división debería ...

3 la respuesta

¿Cómo obtener el número de elementos en la partición?

¿Hay alguna forma de obtener el número de elementos en una partición RDD de chispa, dada la ID de la partición? Sin escanear toda la partición. Algo como esto: Rdd.partitions().get(index).size()Excepto que no veo una API para la ...

1 la respuesta

Determinar el número óptimo de particiones Spark en función de los trabajadores, los núcleos y el tamaño del Marco de datos

Hay varios conceptos similares pero diferentes en Spark-land que rodean cómo el trabajo se cultiva en diferentes nodos y se ejecuta simultáneamente. Específicamente, hay: El nodo Spark Driver sparkDriverCount) El número de nodos de trabajo ...

5 la respuesta

Pandas: Muestreo de un marco de datos [duplicado]

Esta pregunta ya tiene una respuesta aquí: ¿Cómo dividir los datos en 3 conjuntos (tren, validación y prueba)? [/questions/38250710/how-to-split-data-into-3-sets-train-validation-and-test] 5 respuestas Estoy tratando de leer un archivo CSV ...

1 la respuesta

Esquema de particionamiento predeterminado en Spark

Cuando ejecuto el siguiente comando: scala> val rdd = sc.parallelize(List((1,2),(3,4),(3,6)),4).partitionBy(new HashPartitioner(10)).persist() rdd: org.apache.spark.rdd.RDD[(Int, Int)] = ShuffledRDD[10] at partitionBy at <console>:22 scala> ...

1 la respuesta

Cómo particionar las tablas de Azure que se usan para almacenar registros

Recientemente hemos actualizado nuestro registro para usar el almacenamiento de tablas de Azure, que debido a su bajo costo y alto rendimiento al realizar consultas por fila y partición es muy adecuado para este propósito. Estamos tratando de ...

1 la respuesta

¿Cómo funciona la partición en Spark?

Estoy tratando de entender cómo se realiza la partición en Apache Spark. ¿Pueden ayudarme por favor? Aquí está el escenario: un maestro y dos nodos con 1 núcleo cada unoun archivocount.txt de 10 MB de tamaño¿Cuántas particiones crea lo ...