Por que esse algoritmo paralelo é executado mais lentamente que sua contraparte sequencial?

Sequencial:

void do(List<D> d, final List<C> c) {
for (D datum : d)
    getChampoid(datum, c).tally(datum);

Paralelo:

static final int procs = Runtime.getRuntime().availableProcessors();
static final ExecutorService pool = Executors.newFixedThreadPool(procs);
void do(List<D> d, final List<C> c) {
    List<Future> futures = new ArrayList<>();
    for (final D datum : d)
        futures.add(pool.submit(new Runnable() {

            @Override
            public void run() {
                getChampoid(datum, c).tally(datum);
            }

        }));
    for (Future f : futures)
        try {
            f.get();
        } catch (InterruptedException e) {
            e.printStackTrace();
        } catch (ExecutionException e) {
            e.printStackTrace();
        }

Estou perplexo porque para mim eles parecem que fazem exatamente a mesma coisa, a versão paralela deve ser apenas mais rápida, mas é uma ordem de grandeza mais lenta. Alguma ideia?

FYI ambos d e c são listas enormes com algo entre milhares e centenas de milhares de itens.

questionAnswers(2)

yourAnswerToTheQuestion