Результаты поиска по запросу "parquet"

1 ответ

Как избежать чтения старых файлов из S3 при добавлении новых данных?

Раз в 2 часа запускается работа spark для преобразования некоторых файлов tgz в паркет. Задание добавляет новые данные в существующий паркет в s3:

1 ответ

Быстрый Паркетный ряд в Spark

Файлы Parquet содержат поле количества строк для каждого блока. Спарк, кажется, читает это в какой-то момент (

1 ответ

Искра Исключение при преобразовании таблицы MySQL в паркет

Я пытаюсь преобразовать удаленную таблицу MySQL в файл паркета, используя spark 1.6.2.Процесс выполняется в течение 10 минут, заполняя память, затем начинает...

ТОП публикаций

1 ответ

Почему Apache Spark считывает ненужные столбцы Parquet во вложенных структурах?

Моя команда строит процесс ETL для загрузки необработанных текстовых файлов с разделителями в «озеро данных» на основе Parquet, используя Spark. Одно из обещ...

2 ответа

Apache Drill плохая производительность

Я попытался использовать Apache-Drill для выполнения простого запроса объединения-объединения, и скорость была не очень хорошей. мой тестовый запрос был:

1 ответ

Является ли запрос к Spark DataFrame на основе CSV быстрее, чем к Parquet?

2 ответа

Как добавить данные в существующий файл паркета

1 ответ

Почему файлы Spark Parquet для агрегата больше исходного?

Я пытаюсь создать сводный файл для конечных пользователей, чтобы они не обрабатывали несколько источников с файлами большего размера. Для этого я: A) перебир...

2 ответа

Использование Spark для записи файла паркета в s3 поверх s3a очень медленное

3 ответа

Каковы плюсы и минусы формата паркета по сравнению с другими форматами?