¿Por qué este algoritmo paralelo se ejecuta más lentamente que su contraparte secuencial?

Secuencial:

void do(List<D> d, final List<C> c) {
for (D datum : d)
    getChampoid(datum, c).tally(datum);

Paralela:

static final int procs = Runtime.getRuntime().availableProcessors();
static final ExecutorService pool = Executors.newFixedThreadPool(procs);
void do(List<D> d, final List<C> c) {
    List<Future> futures = new ArrayList<>();
    for (final D datum : d)
        futures.add(pool.submit(new Runnable() {

            @Override
            public void run() {
                getChampoid(datum, c).tally(datum);
            }

        }));
    for (Future f : futures)
        try {
            f.get();
        } catch (InterruptedException e) {
            e.printStackTrace();
        } catch (ExecutionException e) {
            e.printStackTrace();
        }

Estoy perplejo porque a mí me parece que hacen exactamente lo mismo, la versión paralela debería ser más rápida, pero es un orden de magnitud más lento. ¿Alguna idea?

Para su información, d y c son listas enormes con miles y cientos de miles de artículos.

Respuestas a la pregunta(2)

Su respuesta a la pregunta