Resultados da pesquisa a pedido "apache-spark"
Spark Execução do arquivo TB na memória
Vamos supor que eu tenho um arquivo de dados Tb. Cada memória do nó no cluster de dez nós é de 3 GB. Quero processar o arquivo usando o spark. Mas como o One TeraByte se encaixa na memória? Será que vai lançar exceção de memória? Como funciona?
Sparkr escreve DF como arquivo csv / txt
Oi, eu estou trabalhando no sparkR no modo fio. Preciso escrever um sparkr df em um arquivo csv / txt. Eu vi que temwrite.df mas escreve arquivos em parquet. Eu tentei fazer isso RdataFrame<-collect(SparkRDF) write.table(RdataFrame, ..)Mas eu ...
Problemas de confiabilidade com o Checkpointing / WAL no Spark Streaming 1.6.0
DescriçãoTemos um aplicativo Spark Streaming 1.5.2 no Scala que lê eventos JSON de um Kinesis Stream, faz algumas transformações / agregações e grava os resultados em diferentes prefixos S3. O intervalo atual do lote é de 60 segundos. Temos ...
Como criar um conjunto de dados da classe personalizada Person?
Eu estava tentando criar umDataset em Java, então escrevo o seguinte código: public Dataset createDataset(){ List<Person> list = new ArrayList<>(); list.add(new Person("name", 10, 10.0)); Dataset<Person> dateset = sqlContext.createDataset(list, ...
Enquanto envia um trabalho com o pyspark, como acessar o upload de arquivos estáticos com o argumento --files?
por exemplo, eu tenho uma pasta: / - test.py - test.ymle o trabalho é enviado ao spark cluster com: gcloud beta dataproc jobs submit pyspark --files=test.yml "test.py" notest.py, Desejo acessar o arquivo estático que carreguei. with ...
FetchFailedException ou MetadataFetchFailedException ao processar o conjunto de big data
Quando executo o código de análise com o conjunto de dados de 1 GB, ele é concluído sem nenhum erro. Mas, quando tento 25 gb de dados por vez, fico abaixo dos erros. Estou tentando entender como evitar falhas abaixo. É um prazer ouvir todas as ...
Função Strip ou Regex no Spark 1.3 Dataframe
Eu tenho algum código do PySpark 1.5 que infelizmente tenho que portar para o Spark 1.3. Eu tenho uma coluna com elementos que são alfanuméricos, mas quero apenas os dígitos. Um exemplo dos elementos em 'old_col' de 'df' são: '125 Bytes'No Spark ...
Várias operações agregadas na mesma coluna de um dataframe spark
Eu tenho três matrizes do tipo string que contêm as seguintes informações: groupBy array: contendo os nomes das colunas pelas quais quero agrupar meus dados.matriz agregada: contendo nomes de colunas que eu quero agregar.matriz de operações: ...
Spark: adicione coluna ao dataframe condicionalmente
Estou tentando pegar meus dados de entrada: A B C -------------- 4 blah 2 2 3 56 foo 3E adicione uma coluna ao final com base em se B está vazio ou não: A B C D -------------------- 4 blah 2 1 2 3 0 56 foo 3 1Eu posso fazer isso facilmente ...
Ler arquivos enviados com envio de faísca pelo driver
Estou enviando um trabalho do Spark para execução em um cluster remoto executando spark-submit ... --deploy-mode cluster --files some.properties ...Eu quero ler o conteúdo dosome.properties arquivo pelomotoristacódigo, ou seja, antes de criar o ...