Ładowanie danych (przyrostowo) do Redshift Amazon, S3 vs DynamoDB vs Insert

Question

Jan 12, 2014, 12:12 AM

amazon-web-services amazon-s3 amazon-redshift amazon-ec2 amazon-dynamodb

Ładowanie danych (przyrostowo) do Redshift Amazon, S3 vs DynamoDB vs Insert

Mam aplikację internetową, która musi wysyłać raporty na temat jej wykorzystania. Chcę użyć Amazon RedShift jako hurtowni danych w tym celu. Jak mam zbierać dane?

Za każdym razem użytkownik wchodzi w interakcję z moją aplikacją, chcę to zgłosić .. więc kiedy powinienem zapisać pliki do S3? i ile ? Chodzi mi o to, że: - Jeśli nie wyślesz informacji natychmiast, to mogę stracić ją w wyniku utraty połączenia lub jakiegoś błędu w moim systemie, gdy został on zebrany i gotowy do wysłania do S3 ... - Jeśli piszę pliki do S3 przy każdej interakcji użytkownika, otrzymam setki plików (na każdym pliku są minimalne dane), które należy zarządzać, sortować, usuwać po skopiowaniu do RedShift .. ta dawka nie wydaje się dobre rozwiązanie.

Czego mi brakuje? Czy zamiast tego powinienem używać DynamoDB, czy zamiast tego powinienem użyć prostego wstawiania do Redshift!?
Jeśli muszę zapisać dane w DynamoDB, czy powinienem usunąć tabelę wstrzymania po skopiowaniu .. jakie są najlepsze praktyki?

W każdym przypadku, jakie są najlepsze praktyki, aby uniknąć powielania danych w RedShift?

Doceń pomoc!