Top diez algoritmos paralelos para datos distribuidos

Esta es una pregunta de entrevista. Supongamos que hay algunas computadoras y cada computadora mantiene un archivo de registro muy grande de las URL visitadas. Encuentra ellos diez mejores Las URL más visitadas.

Por ejemplo: supongamos que solo hay 3 computadoras y necesitamos eldos primeros Las URL más visitadas.

Computer A: url1, url2, url1, url3
Computer B: url4, url2, url1, url1
Computer C: url3, url4, url1, url3

url1 appears 5 times in all logs
url2 2
url3 3
url4 2 

So the answer is url1, url3

Los archivos de registro son demasiado grandes para caber en la RAM y copiarlos por red. Según tengo entendido, es importante también hacer el cómputo en paralelo y usar todas las computadoras dadas.

¿Cómo lo resolverías?

Respuestas a la pregunta(5)

Su respuesta a la pregunta