Результаты поиска по запросу "apache-spark"
@dnaumenko Возможно не смещение, а общие метаданные источника :)
2.2 представил структурированный потоковый источник Kafka. Как я понимаю, он использует каталог контрольных точек HDFS для хранения смещений и гарантии доставки сообщений «точно один раз». Но старые доки ...
Как добавить типобезопасный конфигурационный файл, который находится на HDFS, для spark-submit (cluster-mode)?
У меня есть приложение Spark (Spark 1.5.2), которое передает данные из Кафки в HDFS. Мое приложение содержит два файла конфигурации Typesafe для настройки оп...
и я не вижу никаких записей внутри писателя. Но единственная аномалия в том, что текущая дата - 2018/05/24, но запись, которую я обрабатываю (ts2), имеет старые даты. Будет ли агрегация / подсчет работать в этом сценарии?
аюсь агрегировать количество записей каждые 10 секунд, используя структурированную потоковую передачу для следующих входящих данных Кафки { "ts2" : "2018/05/01 00:02:50.041", "serviceGroupId" : "123", "userId" : "avv-0", "stream" : "", ...
Возврат RDD с наибольшим значением N из другого RDD в SPARK
Я пытаюсь отфильтровать RDD кортежей, чтобы получить наибольшее N кортежей на основе значений ключей. Мне нужен формат возврата, чтобы быть RDD.Итак, СДР:
Это чит-свойство 'ipc.client.fallback-to-simple-auth-разрешено', его также следует перенести в Spark
есть два кластера cloudera 5.7.1, один защищенный с помощью Kerberos, а другой незащищенный.Можно ли запустить Spark с использованием незащищенного кластера ...