Hive Create Multi маленькие файлы для каждой вставки в HDFS

следующее уже достигнуто

Kafka Producer извлекает данные из твиттера с помощью Spark Streaming.Потребитель Kafka загружает данные в таблицу Hive External (в HDFS).

пока это работает нормально до сих пор. есть только одна проблема, с которой я сталкиваюсь, в то время как мое приложение вставляет данные в таблицу Hive, оно создает небольшой файл с каждой строкой данных на файл.

ниже код

// Define which topics to read from
  val topic = "topic_twitter"
  val groupId = "group-1"
  val consumer = KafkaConsumer(topic, groupId, "localhost:2181")

//Create SparkContext
  val sparkContext = new SparkContext("local[2]", "KafkaConsumer")

//Create HiveContext  
  val hiveContext = new org.apache.spark.sql.hive.HiveContext(sparkContext)

  hiveContext.sql("CREATE EXTERNAL TABLE IF NOT EXISTS twitter_data (tweetId BIGINT, tweetText STRING, userName STRING, tweetTimeStamp STRING,   userLang STRING)")
  hiveContext.sql("CREATE EXTERNAL TABLE IF NOT EXISTS demo (foo STRING)")

улей Демо-таблица уже заполнена одной записью. Кафка потребительский цикл через данные для topic = "topic_twitter" обрабатывает каждую строку и заполняет таблицу Hive

val hiveSql = "INSERT INTO TABLE twitter_data SELECT STACK( 1," + 
    tweetID        +","  + 
    tweetText      +"," + 
    userName       +"," +
    tweetTimeStamp +","  +
    userLang + ") FROM demo limit 1"

hiveContext.sql(hiveSql)

ниже приведены изображения из моей среды Hadoop.twitter_data, демо

последние 10 файлов, созданные в HDFS

Как вы можете видеть, размер файла не превышает 200 КБ, есть ли способ объединить эти файлы в один файл?

Ответы на вопрос(3)

Ваш ответ на вопрос