Результаты поиска по запросу "apache-spark"
Преобразовать спарк DataFrame столбец в список Python
Я работаю на датафрейме с двумя столбцами, mvv и count.
Spark: сохранение RDD по уже существующему пути в HDFS
Я могу сохранить вывод RDD в HDFS сsaveAsTextFile метод. Этот метод вызывает исключение, если путь к файлу уже существует.У меня есть случай, когда мне нужно...
Как эффективен способ разделения на столбцы, но с фиксированным количеством разделов?
Каков наилучший способ разбить данные по полю на предопределенное количество разделов?В настоящее время я делю данные, указав partionCount = 600. Найдено, чт...
Чтение нескольких файлов из S3 в Spark по периоду даты
ОписаниеУ меня есть приложение, которое отправляет данные в AWS Kinesis Firehose, и оно записывает данные в мое хранилище S3. Firehose использует формат «ггг...
Spark 2.0: относительный путь в абсолютном URI (спарк-склад)
Я пытаюсь перейти с Spark 1.6.1 на Spark 2.0.0 и получаю странную ошибку при попытке прочитать CSV-файл в SparkSQL. Ранее, когда я читал файл с локального ди...
Чтение нескольких файлов, сжатых в архиве tar.gz в Spark [дубликат]
На этот вопрос уже есть ответ здесь:Читайте целые текстовые файлы из сжатия в Spark 2 ответаЯ пытаюсь создать Spark RDD из нескольких файлов json, сжатых в t...
Как вручную зафиксировать смещение в прямой трансляции Spark Kafka?
Я внимательно посмотрел вокруг, но не нашел удовлетворительного ответа на это. Может быть, я что-то упустил. Пожалуйста помоги.У нас есть потоковое приложени...