Результаты поиска по запросу "spark-structured-streaming"

2 ответа

 Модификация POM.xml помогла мне.

ользую HDP-2.6.3.0 с пакетом Spark2 2.2.0. Я пытаюсь написать потребителя Kafka, используя API-интерфейс Structured Streaming, но получаю следующую ошибку после отправки задания в кластер: Exception in thread "main" ...

1 ответ

Я встретил ту же проблему и решил ее в соответствии с вашим ответом. Спасибо.

я возникла ситуация, когда spark может транслировать и получать сообщения только из одного раздела темы 2-patition Kafka.Мои темы:

1 ответ

https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html#streaming-deduplication

я возникают проблемы с памятью при работе структурированного потока с агрегацией и разбиением в Spark 2.2.0: session .readStream() .schema(inputSchema) .option(OPTION_KEY_DELIMITER, OPTION_VALUE_DELIMITER_TAB) ...

ТОП публикаций

1 ответ

 не кажется тривиальным Кажется, даже библиотека spark-avro сделала выбор в отношении того, как она будет обрабатывать различные типы в различных случаях. Есть ли какой-либо источник или любая помощь, которую я мог бы получить по этому поводу?

денный ниже код читает сообщения от Kafka, а сообщения находятся в Avro, так как мне проанализировать сообщение и поместить его в информационный кадр в Spark 2.2.0? Dataset<Row> df = sparkSession.readStream() ...

1 ответ

Кроме того, нет хорошего способа узнать, когда микропакет полностью обработан вашим приложением, особенно если у вас несколько приемников.

ользую структурированную потоковую передачу со Spark 2.1.1. Мне нужно применить некоторую бизнес-логику для входящих сообщений (из источника Kafka).по сути, ...

2 ответа

 оператор, который просто принимает функцию, которая принимает набор данных пакета и идентификатор пакета.

аюсь использовать потоковую структурированную искру в режиме вывода обновления записи в файл. я нашелэтот пример ...

0 ответов

и я не вижу никаких записей внутри писателя. Но единственная аномалия в том, что текущая дата - 2018/05/24, но запись, которую я обрабатываю (ts2), имеет старые даты. Будет ли агрегация / подсчет работать в этом сценарии?

аюсь агрегировать количество записей каждые 10 секунд, используя структурированную потоковую передачу для следующих входящих данных Кафки { "ts2" : "2018/05/01 00:02:50.041", "serviceGroupId" : "123", "userId" : "avv-0", "stream" : "", ...

2 ответа

Просто для записи - Zeppelin может использоваться с предоставленной пользователем установкой Spark, независимо от встроенной, и поддерживает Spark 2.2 (как указано в вопросе). Таким образом, вы можете использовать формат «скорость», если хотите.

всех сил, чтобы получитьconsole раковина работает сPySpark Структурированная потоковая передача [https://spark.apache.org/docs/2.2.0/structured-streaming-programming-guide.html] когда бегут от Zeppelin. По сути, я не вижу никаких результатов, ...

0 ответов

Интересно, почему количество задач варьируется? Как это должно быть определено Спарк?

аюсь понять странное поведение, которое я наблюдал в своем приложении потоковой передачи структуры Spark, которое выполняется вlocal[*] Режим. У меня 8 ядер на моих машинах. Хотя большинство моих Пакетов имеют 8 разделов, время от времени я ...

1 ответ

Когда вы используете неразрешенные столбцы, Spark определит правильные столбцы для вас.

тря на то, что я используюwithWatermark()Я получаю следующее сообщение об ошибке при запуске задания на искру: Исключение в потоке "main" org.apache.spark.sql.AnalysisException: добавление режима вывода не поддерживается при потоковой агрегации ...