Jak obsługiwać pola zawarte w cudzysłowach (CSV) podczas importowania danych z S3 do DynamoDB przy użyciu EMR / Hive

Question

Dec 27, 2012, 10:23 PM

amazon-s3 amazon-dynamodb hive amazon-web-services amazon-emr

Jak obsługiwać pola zawarte w cudzysłowach (CSV) podczas importowania danych z S3 do DynamoDB przy użyciu EMR / Hive

Próbuję użyć EMR / Hive do importowania danych z S3 do DynamoDB. Mój plik CSV zawiera pola ujęte w podwójne cudzysłowy i oddzielone przecinkiem. Podczas tworzenia tabeli zewnętrznej w gałęzi mogę określić separator jako przecinek, ale jak określić, czy pola są ujęte w cudzysłów?

Jeśli nie określę, widzę, że wartości w DynamoDB są wypełnione w dwóch podwójnych cudzysłowach „wartość”, która wydaje się błędna.

Używam następującego polecenia, aby utworzyć tabelę zewnętrzną. Czy istnieje sposób na określenie, że pola są ujęte w podwójne cudzysłowy?

CREATE EXTERNAL TABLE emrS3_import_1(col1 string, col2 string, col3 string, col4 string)  ROW FORMAT DELIMITED FIELDS TERMINATED BY '","' LOCATION 's3://emrTest/folder';

Wszelkie sugestie będą mile widziane. Dzięki Jitendra