Resultados da pesquisa a pedido "apache-spark"
Anexar novos dados a arquivos parquet particionados
Estou escrevendo um processo ETL em que precisarei ler arquivos de log por hora, particionar os dados e salvá-los. Estou usando o Spark (no Databricks). Os arquivos de log são CSV, então eu os leio e aplico um esquema, depois realizo minhas ...
O padrão diferente persiste para Rdd e conjunto de dados
Eu estava tentando encontrar uma boa resposta porque o padrão persistir para RDD é MEMORY_ONLY e para o conjunto de dados MEMORY_AND_DISK. Mas não consegui encontrar. Gostaria de saber se algum de vocês conhece uma boa razão para trás. obrigado
Enviando o aplicativo spark como um trabalho de fios do Eclipse e do Spark Context
Eu já posso enviarlocal trabalhos de faísca (escritos em Scala) do meu Eclipse IDE. No entanto, gostaria de modificar meu contexto do Spark (dentro do meu aplicativo) para que, quando 'Executar' o aplicativo (dentro do Eclipse), o trabalho seja ...
Os trabalhos do Spark terminam, mas o aplicativo leva tempo para fechar
Executando o trabalho de faísca usando scala, como esperado, todos os trabalhos estão terminando no prazo, mas, de alguma forma, alguns logs INFO são impressos por 20 a 25 minutos antes do trabalho ser interrompido. Publicando algumas capturas ...
Como posso criar pares de valores-chave?
Eu tenho usadogroupByKey nos meus pares de valores-chave. Agora eu tenho isso (chave, iterável). Quero criar esses pares de valores-chave: ((chave, (um elemento da lista)), 1) para toda a lista v. Como posso fazer isso? Como pode fazer um loop ...
Função Apache Spark Window com coluna aninhada
Não tenho certeza se isso é um bug (ou apenas sintaxe incorreta). Eu procurei e não vi isso mencionado em outro lugar, então estou perguntando aqui antes de registrar um relatório de bug. Estou tentando usar uma função de janela particionada em ...
RDD divide e faz agregação em novos RDDs
Eu tenho um RDD de(String,String,Int). Eu quero reduzi-lo com base nas duas primeiras cadeiasE então, com base na primeira String, quero agrupar o (String, Int) e classificá-losApós a classificação, preciso agrupá-los em pequenos grupos, cada um ...
pyspark e reduzirByKey: como fazer uma soma simples
Estou tentando algum código no Spark (pyspark) para uma atribuição. Na primeira vez que uso esse ambiente, com certeza sinto falta de algo… Eu tenho um conjunto de dados simples chamado c_views. Se eu correrc_views.collect() eu recebo […] ...
Erro ao executar o Scala constrói com Spark 1.5.2 e Scala 2.11.7
Eu tenho um arquivo de objeto scala simples com o seguinte conteúdo: import org.apache.spark.SparkContext import org.apache.spark.SparkContext._ import org.apache.spark.SparkConf object X { def main(args: Array[String]) { val params = ...
Estouro de pilha ao processar várias colunas com um UDF
eu tenho umDataFrame com muitas colunas destr tipo e quero aplicar uma função a todas essas colunas, sem renomear seus nomes ou adicionar mais colunas, tentei usar umfor-in execução de loopwithColumn (veja o exemplo abaixo), mas normalmente ...