Результаты поиска по запросу "parquet"

2 ответа

Использование Spark для записи файла паркета в s3 поверх s3a очень медленное

4 ответа

Прочитайте несколько паркетных файлов одновременно в Spark

1 ответ

Можно ли загрузить паркетный стол прямо из файла?

Если у меня есть файл двоичных данных (он может быть преобразован в формат CSV), есть ли способ загрузить таблицу паркет непосредственно из него? Многие учеб...

ТОП публикаций

5 ответов

Искра Исключение: не удалось выполнить задачу при записи строк

Я читаю текстовые файлы и преобразовываю их в паркетные файлы. Я делаю это с использованием искрового кода. Но когда я пытаюсь запустить код, я получаю следу...

2 ответа

Добавлять новые данные в разделенные файлы паркета

Я пишу ETL-процесс, в котором мне нужно будет почитать почасовые журналы, разделить данные и сохранить их. Я использую Spark (в Databricks). Файлы журналов C...

1 ответ

этот ответ

аюсь прочитать файлы, присутствующие наSequence троп в скале. Ниже приведен пример (псевдо) кода: val paths = Seq[String] //Seq of paths val dataframe = spark.read.parquet(paths: _*)Теперь в приведенной выше последовательности некоторые пути ...

1 ответ

Искра Исключение при преобразовании таблицы MySQL в паркет

Я пытаюсь преобразовать удаленную таблицу MySQL в файл паркета, используя spark 1.6.2.Процесс выполняется в течение 10 минут, заполняя память, затем начинает...

1 ответ

Является ли запрос к Spark DataFrame на основе CSV быстрее, чем к Parquet?

1 ответ

Как избежать чтения старых файлов из S3 при добавлении новых данных?

Раз в 2 часа запускается работа spark для преобразования некоторых файлов tgz в паркет. Задание добавляет новые данные в существующий паркет в s3:

1 ответ

Spark SQL - загрузка файлов CSV / PSV с некоторыми искаженными записями