Reduktor Hadoop: Jak mogę wydrukować do wielu katalogów przy użyciu wykonywania spekulacyjnego?

Question

Feb 12, 2013, 02:51 AM

Reduktor Hadoop: Jak mogę wydrukować do wielu katalogów przy użyciu wykonywania spekulacyjnego?

Mam reduktor, który musi generować wyniki do różnych katalogów, abyśmy mogli później wykorzystać dane wyjściowe jako dane wejściowe do gałęzi Hive jako tabela partycjonowana. (Hive tworzy partycje na podstawie nazwy folderu). Aby napisać do tych lokalizacji, obecnie nie używamy żadnej struktury Hadoop, aby to osiągnąć, po prostu wypisujemy osobne lokalizacje „za plecami Hadoop”. Innymi słowy nie używamy API hadoop do wysyłania tych plików.

Mieliśmy problemymapred.reduce.tasks.speculative.execution Ustawićtrue. Rozumiem, że tak jest, ponieważ wielokrotne próby zadania dla tego samego zadania są zapisywane w tej samej lokalizacji.

Czy istnieje sposób na poprawne użycie interfejsu API Hadoop do wyprowadzenia do kilku różnych folderów z tego samego reduktora, którego mogę użyćmapred.reduce.tasks.speculative.execution=true ? (Wiem o wielu wyjściach, co do których nie jestem pewien, czy obsługuje wykonywanie spekulacyjne).

Jeśli tak, czy istnieje sposób, aby to zrobići wyjście do S3?