Resultados da pesquisa a pedido "apache-spark"

2 a resposta

Anexar novos dados a arquivos parquet particionados

Estou escrevendo um processo ETL em que precisarei ler arquivos de log por hora, particionar os dados e salvá-los. Estou usando o Spark (no Databricks). Os arquivos de log são CSV, então eu os leio e aplico um esquema, depois realizo minhas ...

2 a resposta

O padrão diferente persiste para Rdd e conjunto de dados

Eu estava tentando encontrar uma boa resposta porque o padrão persistir para RDD é MEMORY_ONLY e para o conjunto de dados MEMORY_AND_DISK. Mas não consegui encontrar. Gostaria de saber se algum de vocês conhece uma boa razão para trás. obrigado

1 a resposta

Enviando o aplicativo spark como um trabalho de fios do Eclipse e do Spark Context

Eu já posso enviarlocal trabalhos de faísca (escritos em Scala) do meu Eclipse IDE. No entanto, gostaria de modificar meu contexto do Spark (dentro do meu aplicativo) para que, quando 'Executar' o aplicativo (dentro do Eclipse), o trabalho seja ...

2 a resposta

Os trabalhos do Spark terminam, mas o aplicativo leva tempo para fechar

Executando o trabalho de faísca usando scala, como esperado, todos os trabalhos estão terminando no prazo, mas, de alguma forma, alguns logs INFO são impressos por 20 a 25 minutos antes do trabalho ser interrompido. Publicando algumas capturas ...

1 a resposta

Como posso criar pares de valores-chave?

Eu tenho usadogroupByKey nos meus pares de valores-chave. Agora eu tenho isso (chave, iterável). Quero criar esses pares de valores-chave: ((chave, (um elemento da lista)), 1) para toda a lista v. Como posso fazer isso? Como pode fazer um loop ...

1 a resposta

Função Apache Spark Window com coluna aninhada

Não tenho certeza se isso é um bug (ou apenas sintaxe incorreta). Eu procurei e não vi isso mencionado em outro lugar, então estou perguntando aqui antes de registrar um relatório de bug. Estou tentando usar uma função de janela particionada em ...

1 a resposta

RDD divide e faz agregação em novos RDDs

Eu tenho um RDD de(String,String,Int). Eu quero reduzi-lo com base nas duas primeiras cadeiasE então, com base na primeira String, quero agrupar o (String, Int) e classificá-losApós a classificação, preciso agrupá-los em pequenos grupos, cada um ...

1 a resposta

pyspark e reduzirByKey: como fazer uma soma simples

Estou tentando algum código no Spark (pyspark) para uma atribuição. Na primeira vez que uso esse ambiente, com certeza sinto falta de algo… Eu tenho um conjunto de dados simples chamado c_views. Se eu correrc_views.collect() eu recebo […] ...

1 a resposta

Erro ao executar o Scala constrói com Spark 1.5.2 e Scala 2.11.7

Eu tenho um arquivo de objeto scala simples com o seguinte conteúdo: import org.apache.spark.SparkContext import org.apache.spark.SparkContext._ import org.apache.spark.SparkConf object X { def main(args: Array[String]) { val params = ...

1 a resposta

Estouro de pilha ao processar várias colunas com um UDF

eu tenho umDataFrame com muitas colunas destr tipo e quero aplicar uma função a todas essas colunas, sem renomear seus nomes ou adicionar mais colunas, tentei usar umfor-in execução de loopwithColumn (veja o exemplo abaixo), mas normalmente ...