Кафка разделов разделов к Spark streaming

Question

Jun 14, 2016, 01:27 PM

apache-spark apache-kafka spark-streaming

Кафка разделов разделов к Spark streaming

У меня есть несколько вариантов использования, которые я хотел бы прояснить, о разделении тем Kafka -> использование ресурсов потоковой передачи.

Я использую спарк автономный режим, поэтому у меня есть только «общее количество исполнителей» и «память исполнителя». Насколько я знаю и согласно документации, способ ввести параллелизм в потоковую передачу Spark - использовать раздел Kafka с разделами -> RDD будет иметь такое же количество разделов, что и kafka, когда я использую прямую интеграцию потоков spark-kafka.

Так что, если у меня есть 1 раздел в теме и 1 ядро исполнителя, это ядро будет последовательно считываться с Kafka.

Что произойдет, если у меня есть:

2 раздела в теме и только 1 ядро исполнителя? Будет ли это ядро читать сначала из одного раздела, а затем со второго, поэтому разделение темы не принесет никакой пользы?

2 раздела в теме и 2 ядра? Будет ли 1 ядро исполнителя читать из 1 раздела, а второе ядро из второго раздела?

1 раздел кафка и 2 ядра исполнителя?

Спасибо.

Кафка разделов разделов к Spark streaming

Ответы на вопрос(1)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Кафка разделов разделов к Spark streaming

Ответы на вопрос(1)

Ваш ответ на вопрос

Популярные вопросы