Resultados de la búsqueda a petición "distributed-computing"

2 la respuesta

Spark Streaming: cómo no reiniciar el receptor después de la falla del receptor

Estamos utilizando un receptor de chispa personalizado que lee los datos transmitidos desde un enlace http proporcionado. Si el enlace http proporcionado es incorrecto, el receptor falla. El problema es que la chispa reiniciará continuamente el ...

1 la respuesta

Spark RDD: ¿Cómo calcular las estadísticas de manera más eficiente?

Suponiendo la existencia de un RDD de tuplas similar al siguiente: (key1, 1) (key3, 9) (key2, 3) (key1, 4) (key1, 5) (key3, 2) (key2, 7) ...¿Cuál es la forma más eficiente (e idealmente distribuida) de calcular las estadísticas correspondientes ...

6 la respuesta

Cómo escribir a CSV en Spark

Estoy tratando de encontrar una manera efectiva de guardar el resultado de mi Spark Job como un archivo csv. Estoy usando Spark con Hadoop y hasta ahora todos mis archivos se guardan comopart-00000. ¿Alguna idea de cómo hacer que mi chispa ...

9 la respuesta

Spark - repartition () vs coalesce ()

De acuerdo con Learning Spark Tenga en cuenta que repartir sus datos es una operación bastante costosa. Spark también tiene una versión optimizada de repartition () llamada coalesce () que permite evitar el movimiento de datos, pero solo si está ...

2 la respuesta

Colas de trabajo de Akka.Net

Tengo un marco informático distribuido existente creado sobre Mass Transit y RabbitMQ. Básicamente, hay un gerente que responde con trabajo basado en solicitudes. Cada trabajador tomará una cierta cantidad de artículos según las especificaciones ...

1 la respuesta

¿Cómo equilibrar mis datos en las particiones?

Editar: La respuesta ayuda, pero describí mi solución en:problema de memoria en Spark [https://gsamaras.wordpress.com/code/memoryoverhead-issue-in-spark/]. Tengo un RDD con particiones 202092, que lee un conjunto de datos creado por otros. Puedo ...

1 la respuesta

¿Cómo almacenar datos y sacarlos de los archivos de mapeo de memoria usando CopyMemory en VBA?

Estoy tratando de construir un sistema informático distributivo que use archivos de mapeo de memoria para coordinar el trabajo entre varias PC en red, todo a través de VBA. Dicho de otra manera, quiero que un grupo de computadoras en red trabajen ...

1 la respuesta

Preparar mis bigdata con Spark a través de Python

Mis 100 m de tamaño, datos cuantificados: (1424411938', [3885, 7898]) (3333333333', [3885, 7898])Resultado deseado: (3885, [3333333333, 1424411938]) (7898, [3333333333, 1424411938])Entonces, lo que quiero es transformar los datos para agrupar ...

2 la respuesta

Bloques de matriz de dispersión de diferentes tamaños usando MPI

(Suponga que todas las matrices se almacenan en orden de fila mayor.) Un ejemplo que ilustra el problema es distribuir una matriz de 10x10 sobre una cuadrícula de 3x3, de modo que el tamaño de las submatrices en cada nodo se vea ...

1 la respuesta

Hacia la limitación del gran RDD

Estoy leyendo muchas imágenes y me gustaría trabajar en un pequeño subconjunto de ellas para desarrollarlas. Como resultado, estoy tratando de entender cómo Chispa - chispear [/questions/tagged/spark]ypitón [/questions/tagged/python] podría hacer ...