Jak obsługiwać pola zawarte w cudzysłowach (CSV) podczas importowania danych z S3 do DynamoDB przy użyciu EMR / Hive
Próbuję użyć EMR / Hive do importowania danych z S3 do DynamoDB. Mój plik CSV zawiera pola ujęte w podwójne cudzysłowy i oddzielone przecinkiem. Podczas tworzenia tabeli zewnętrznej w gałęzi mogę określić separator jako przecinek, ale jak określić, czy pola są ujęte w cudzysłów?
Jeśli nie określę, widzę, że wartości w DynamoDB są wypełnione w dwóch podwójnych cudzysłowach „wartość”, która wydaje się błędna.
Używam następującego polecenia, aby utworzyć tabelę zewnętrzną. Czy istnieje sposób na określenie, że pola są ujęte w podwójne cudzysłowy?
CREATE EXTERNAL TABLE emrS3_import_1(col1 string, col2 string, col3 string, col4 string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '","' LOCATION 's3://emrTest/folder';
Wszelkie sugestie będą mile widziane. Dzięki Jitendra