Результаты поиска по запросу "parquet"

3 ответа

Выход:

ы добавляете / обновляетеparquet файл сpyarrow? import pandas as pd import pyarrow as pa import pyarrow.parquet as pq table2 = pd.DataFrame({'one': [-1, np.nan, 2.5], 'two': ['foo', 'bar', 'baz'], 'three': [True, False, True]}) table3 = ...

1 ответ

И для вашего удобства весь исходный код:

но у меня появилось требование, в котором мне нужно было генерировать файлы Parquet, которые могли бы быть прочитаны Apache Spark с использованием только Java (без дополнительных установок программного обеспечения, таких как: Apache Drill, Hive, ...

2 ответа

@Ptah, можешь поделиться, как ты разрешил лямбда-сервису доступ к S3?

аюсь загрузить, обработать и записать файлы Parquet в S3 с помощью AWS Lambda. Мой процесс тестирования / развертывания: https://github.com/lambci/docker-lambda [https://github.com/lambci/docker-lambda]в качестве контейнера для макета ...

ТОП публикаций

1 ответ

Все ли двоичные столбцы имеют максимальную статистику в паркете?

новной ветке спарк - я пытался записать один столбец с "a", "b", "c" в файл паркетаf1 scala> List("a", "b", "c").toDF("field1").coalesce(1).write.parquet("f1")Но сохраненный файл не имеет статистики (мин, макс) $ ls ...

1 ответ

 режим, каждый рабочий поток должен работать независимо от других, не так ли?

аписанииdataframe вparquet с помощьюpartitionBy : df.write.partitionBy("col1","col2","col3").parquet(path)Я ожидал бы, что каждый записываемый раздел выполнялся независимо отдельной задачей и параллельно количеству работников, назначенных на ...

3 ответа

 файл.

смог найти простых английских объяснений относительно файлов Apache Parquet. Такие как: Кто они такие?Нужен ли мне Hadoop или HDFS для их просмотра / создания / хранения?Как я могу создать паркетные файлы?Как я могу просмотреть ...