и я не вижу никаких записей внутри писателя. Но единственная аномалия в том, что текущая дата - 2018/05/24, но запись, которую я обрабатываю (ts2), имеет старые даты. Будет ли агрегация / подсчет работать в этом сценарии?

аюсь агрегировать количество записей каждые 10 секунд, используя структурированную потоковую передачу для следующих входящих данных Кафки

{ 
  "ts2" : "2018/05/01 00:02:50.041", 
  "serviceGroupId" : "123", 
  "userId" : "avv-0", 
  "stream" : "", 
  "lastUserActivity" : "00:02:50", 
  "lastUserActivityCount" : "0" 
} 
{ 
  "ts2" : "2018/05/01 00:09:02.079", 
  "serviceGroupId" : "123", 
  "userId" : "avv-0", 
  "stream" : "", 
  "lastUserActivity" : "00:09:02", 
  "lastUserActivityCount" : "0" 
} 
{ 
  "ts2" : "2018/05/01 00:09:02.086", 
  "serviceGroupId" : "123", 
  "userId" : "avv-2", 
  "stream" : "", 
  "lastUserActivity" : "00:09:02", 
  "lastUserActivityCount" : "0" 
} 

Со следующей логикой

val sdvTuneInsAgg1 = df 
  .withWatermark("ts2", "10 seconds") 
  .groupBy(window(col("ts2"),"10 seconds")) 
  .agg(count("*") as "count") 
  .as[CountMetric1] 

val query1 = sdvTuneInsAgg1.writeStream
      .format("console")
      .foreach(writer)
      .start()

и я не вижу никаких записей внутри писателя. Но единственная аномалия в том, что текущая дата - 2018/05/24, но запись, которую я обрабатываю (ts2), имеет старые даты. Будет ли агрегация / подсчет работать в этом сценарии?

Ответы на вопрос(0)

Ваш ответ на вопрос