Результаты поиска по запросу "parquet"

1 ответ

Как избежать чтения старых файлов из S3 при добавлении новых данных?

Раз в 2 часа запускается работа spark для преобразования некоторых файлов tgz в паркет. Задание добавляет новые данные в существующий паркет в s3:

1 ответ

Искра Исключение при преобразовании таблицы MySQL в паркет

Я пытаюсь преобразовать удаленную таблицу MySQL в файл паркета, используя spark 1.6.2.Процесс выполняется в течение 10 минут, заполняя память, затем начинает...

1 ответ

Но в нашем случае ParquetWriter имеет только абстрактный конструктор.

ал решение этого вопроса.Мне кажется, что нет способа встроить чтение и запись формата Parquet в Java-программу без учета зависимостей от HDFS и Hadoop. Это ...

ТОП публикаций

1 ответ

 Вы должны получить все необходимые данные.

вы создаете столбец временной метки в spark и сохраняете его в паркет, вы получаете 12-байтовый целочисленный тип столбца (int96); Я собираю данные разбиты н...

1 ответ

этот ответ

аюсь прочитать файлы, присутствующие наSequence троп в скале. Ниже приведен пример (псевдо) кода: val paths = Seq[String] //Seq of paths val dataframe = spark.read.parquet(paths: _*)Теперь в приведенной выше последовательности некоторые пути ...

1 ответ

И для вашего удобства весь исходный код:

но у меня появилось требование, в котором мне нужно было генерировать файлы Parquet, которые могли бы быть прочитаны Apache Spark с использованием только Java (без дополнительных установок программного обеспечения, таких как: Apache Drill, Hive, ...

1 ответ

Все ли двоичные столбцы имеют максимальную статистику в паркете?

новной ветке спарк - я пытался записать один столбец с "a", "b", "c" в файл паркетаf1 scala> List("a", "b", "c").toDF("field1").coalesce(1).write.parquet("f1")Но сохраненный файл не имеет статистики (мин, макс) $ ls ...

1 ответ

 режим, каждый рабочий поток должен работать независимо от других, не так ли?

аписанииdataframe вparquet с помощьюpartitionBy : df.write.partitionBy("col1","col2","col3").parquet(path)Я ожидал бы, что каждый записываемый раздел выполнялся независимо отдельной задачей и параллельно количеству работников, назначенных на ...

2 ответа

Ошибка EntityTooLarge при загрузке файла 5G в Amazon S3

Согласно этому ограничению размер файла Amazon S3 должен быть 5Tобъявление, но я получаю следующую ошибку при загрузке файла 5G

2 ответа

Как читать и писать Map <String, Object> из / в паркетный файл на Java или Scala?

Ищете краткий пример о том, как читать и писать