Top diez algoritmos paralelos para datos distribuidos
Esta es una pregunta de entrevista. Supongamos que hay algunas computadoras y cada computadora mantiene un archivo de registro muy grande de las URL visitadas. Encuentra ellos diez mejores Las URL más visitadas.
Por ejemplo: supongamos que solo hay 3 computadoras y necesitamos eldos primeros Las URL más visitadas.
Computer A: url1, url2, url1, url3 Computer B: url4, url2, url1, url1 Computer C: url3, url4, url1, url3 url1 appears 5 times in all logs url2 2 url3 3 url4 2 So the answer is url1, url3
Los archivos de registro son demasiado grandes para caber en la RAM y copiarlos por red. Según tengo entendido, es importante también hacer el cómputo en paralelo y usar todas las computadoras dadas.
¿Cómo lo resolverías?