Результаты поиска по запросу "parquet"

1 ответ

 режим, каждый рабочий поток должен работать независимо от других, не так ли?

аписанииdataframe вparquet с помощьюpartitionBy : df.write.partitionBy("col1","col2","col3").parquet(path)Я ожидал бы, что каждый записываемый раздел выполнялся независимо отдельной задачей и параллельно количеству работников, назначенных на ...

3 ответа

 файл.

смог найти простых английских объяснений относительно файлов Apache Parquet. Такие как: Кто они такие?Нужен ли мне Hadoop или HDFS для их просмотра / создания / хранения?Как я могу создать паркетные файлы?Как я могу просмотреть ...

1 ответ

Все ли двоичные столбцы имеют максимальную статистику в паркете?

новной ветке спарк - я пытался записать один столбец с "a", "b", "c" в файл паркетаf1 scala> List("a", "b", "c").toDF("field1").coalesce(1).write.parquet("f1")Но сохраненный файл не имеет статистики (мин, макс) $ ls ...

ТОП публикаций

2 ответа

@Ptah, можешь поделиться, как ты разрешил лямбда-сервису доступ к S3?

аюсь загрузить, обработать и записать файлы Parquet в S3 с помощью AWS Lambda. Мой процесс тестирования / развертывания: https://github.com/lambci/docker-lambda [https://github.com/lambci/docker-lambda]в качестве контейнера для макета ...

1 ответ

И для вашего удобства весь исходный код:

но у меня появилось требование, в котором мне нужно было генерировать файлы Parquet, которые могли бы быть прочитаны Apache Spark с использованием только Java (без дополнительных установок программного обеспечения, таких как: Apache Drill, Hive, ...

3 ответа

Выход:

ы добавляете / обновляетеparquet файл сpyarrow? import pandas as pd import pyarrow as pa import pyarrow.parquet as pq table2 = pd.DataFrame({'one': [-1, np.nan, 2.5], 'two': ['foo', 'bar', 'baz'], 'three': [True, False, True]}) table3 = ...

1 ответ

этот ответ

аюсь прочитать файлы, присутствующие наSequence троп в скале. Ниже приведен пример (псевдо) кода: val paths = Seq[String] //Seq of paths val dataframe = spark.read.parquet(paths: _*)Теперь в приведенной выше последовательности некоторые пути ...

1 ответ

 Вы должны получить все необходимые данные.

вы создаете столбец временной метки в spark и сохраняете его в паркет, вы получаете 12-байтовый целочисленный тип столбца (int96); Я собираю данные разбиты н...

1 ответ

Но в нашем случае ParquetWriter имеет только абстрактный конструктор.

ал решение этого вопроса.Мне кажется, что нет способа встроить чтение и запись формата Parquet в Java-программу без учета зависимостей от HDFS и Hadoop. Это ...

2 ответа

Как преобразовать таблицу SQL объемом 500 ГБ в Apache Parquet?

Возможно, это хорошо задокументировано, но я очень запутался, как это сделать (есть много инструментов Apache).Когда я создаю таблицу SQL, я создаю таблицу, ...