Результаты поиска по запросу "parquet"

2 ответа

Использование Spark для записи файла паркета в s3 поверх s3a очень медленное

1 ответ

Искра Исключение при преобразовании таблицы MySQL в паркет

Я пытаюсь преобразовать удаленную таблицу MySQL в файл паркета, используя spark 1.6.2.Процесс выполняется в течение 10 минут, заполняя память, затем начинает...

5 ответов

Паркет против ORC против ORC с Снейппи

ТОП публикаций

7 ответов

Авро против Паркет

1 ответ

Spark SQL не может завершить запись данных Parquet с большим количеством фрагментов

Я пытаюсь использовать Apache Spark SQL для преобразования данных журнала JSON на S3 в файлы Parquet также на S3. Мой код в основном:

2 ответа

Добавлять новые данные в разделенные файлы паркета

Я пишу ETL-процесс, в котором мне нужно будет почитать почасовые журналы, разделить данные и сохранить их. Я использую Spark (в Databricks). Файлы журналов C...

1 ответ

И для вашего удобства весь исходный код:

но у меня появилось требование, в котором мне нужно было генерировать файлы Parquet, которые могли бы быть прочитаны Apache Spark с использованием только Java (без дополнительных установок программного обеспечения, таких как: Apache Drill, Hive, ...

4 ответа

Прочитайте несколько паркетных файлов одновременно в Spark

0 ответов

SparkR collect () и head () для Spark DataFrame: аргументы подразумевают различное количество строк

1 ответ

Все ли двоичные столбцы имеют максимальную статистику в паркете?

новной ветке спарк - я пытался записать один столбец с "a", "b", "c" в файл паркетаf1 scala> List("a", "b", "c").toDF("field1").coalesce(1).write.parquet("f1")Но сохраненный файл не имеет статистики (мин, макс) $ ls ...