Параллельный алгоритм первой десятки для распределенных данных

Question

Mar 25, 2013, 11:37 AM

language-agnostic distributed-computing algorithm parallel-processing

Параллельный алгоритм первой десятки для распределенных данных

Это вопрос интервью. Предположим, что есть несколько компьютеров, и каждый компьютер хранит очень большой файл журнала посещенных URL. Найтидесятка лидеров наиболее посещаемые URL.

Например: предположим, что есть только 3 компьютера, и нам нужендва лучших наиболее посещаемые URL.

Computer A: url1, url2, url1, url3
Computer B: url4, url2, url1, url1
Computer C: url3, url4, url1, url3

url1 appears 5 times in all logs
url2 2
url3 3
url4 2 

So the answer is url1, url3

Файлы журнала слишком велики, чтобы поместиться в ОЗУ и скопировать их по сети. Как я понимаю, важно также сделать вычисления параллельными и использовать все данные компьютеры.

Как бы вы решили это?

Параллельный алгоритм первой десятки для распределенных данных

Ответы на вопрос(5)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Параллельный алгоритм первой десятки для распределенных данных

Ответы на вопрос(5)

Ваш ответ на вопрос

Популярные вопросы