Spark Streaming в каталоге S3

Question

Jun 23, 2015, 07:19 AM

amazon-web-services spark-streaming apache-spark scala amazon-s3

Spark Streaming в каталоге S3

Итак, у меня есть тысячи событий, передаваемых через Amazon Kinesis в SQS, а затем выгружаемых в каталог S3. Примерно каждые 10 минут создается новый текстовый файл для выгрузки данных из Kinesis в S3. Я хотел бы настроить Spark Streaming, чтобы он передавал новые файлы, сбрасываемые в S3. Сейчас у меня есть

import org.apache.spark.streaming._
val currentFileStream = ssc.textFileStream("s3://bucket/directory/event_name=accepted/")
currentFileStream.print
ssc.start()

Однако Spark Streaming не принимает новые файлы, выгружаемые в S3. Я думаю, что это как-то связано с требованиями записи файла:

The files must have the same data format.
The files must be created in the dataDirectory by atomically moving or renaming them into the data directory.
Once moved, the files must not be changed. So if the files are being continuously appended, the new data will not be read.

Почему Spark Streaming не собирает новые файлы? Это потому, что AWS создает файлы в каталоге, а не перемещает их? Как я могу убедиться, что Spark подхватывает файлы, сбрасываемые в S3?

Spark Streaming в каталоге S3

Ответы на вопрос(1)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Spark Streaming в каталоге S3

Ответы на вопрос(1)

Ваш ответ на вопрос

Популярные вопросы