Когда вы создаете внешнюю таблицу в Hive с расположением S3, передаются ли данные?
При создании внешней таблицы в Hive (в Hadoop) с исходным местоположением Amazon S3 данные передаются в локальную HDFS Hadoop в:
создание внешней таблицыкогда запросы (задания MR) выполняются на внешней таблиценикогда (никакие данные никогда не передаются) и задания MR читают данные S3.Каковы затраты, понесенные здесь для чтения S3? Существует ли единая стоимость переноса данных в HDFS или нет затрат на перенос данных, но когда задание MapReduce, созданное Hive, выполняется для этой внешней таблицы, возникают расходы на чтение.
Пример определения внешней таблицы:
CREATE EXTERNAL TABLE mydata (key STRING, value INT)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '='
LOCATION 's3n://mys3bucket/';