Resultados da pesquisa a pedido "apache-spark"
Conexão recusada ao executar o SparkPi localmente
Estou tentando executar uma execução simples do exemplo SparkPi. Iniciei o mestre e um trabalhador, depois executei o trabalho no meu "cluster" local, mas acabei recebendo uma sequência de erros, todos terminando com Caused ...
Problema de memória com streaming estruturado spark
Estou enfrentando problemas de memória executando fluxo estruturado com agregação e particionamento no Spark 2.2.0: session .readStream() .schema(inputSchema) .option(OPTION_KEY_DELIMITER, OPTION_VALUE_DELIMITER_TAB) ...
Agregação de fluxo estruturado Spark para dados antigos de registro de data e hora
Estou tentando agregar a contagem de registros a cada 10 segundos usando o streaming estruturado para os seguintes dados Kafka recebidos { "ts2" : "2018/05/01 00:02:50.041", "serviceGroupId" : "123", "userId" : "avv-0", "stream" : "", ...
Spark Structured Streaming com fonte RabbitMQ
Estou tentando escrever um receptor personalizado paraStructured Streaming que consumirá mensagens deRabbitMQ. Spark lançado recentemente [https://databricks.com/blog/2018/02/28/introducing-apache-spark-2-3.html]API DataSource V2, o que parece ...
Tarefa não serializável: java.io.NotSerializableException ao chamar a função fora do fechamento apenas em classes e não em objetos
Obtendo um comportamento estranho ao chamar a função fora de um fechamento: quando a função está em um objeto, tudo está funcionandoquando a função está em uma classe get:Tarefa não serializável: java.io.NotSerializableException: testing O ...
O Spark fica sem memória ao agrupar por chave
Estou tentando executar uma transformação simples de dados de rastreamento comuns usando o host Spark em um EC2 usandoeste guia [http://spark-summit.org/2013/exercises/launching-a-bdas-cluster-on-ec2.html], meu código fica assim: package ccminer ...
Spark submit (2.3) no cluster kubernetes do Python
Portanto, agora que o k8s é integrado diretamente ao spark no 2.3, o envio do meu spark a partir do console é executado corretamente em um mestre do kuberenetes sem nenhum pod do spark master em execução, o spark lida com todos os detalhes do ...
Spark: desenhe a curva de aprendizado de um modelo com spark
Estou usando o Spark e gostaria de treinar um modelo de aprendizado de máquina. Por causa de maus resultados, gostaria de exibir o erro cometido pelo modelo em cada época do treinamento (no conjunto de dados de treinamento e teste). Utilizarei ...
Py4JJavaError no spark
Eu tenho abaixo código através do qual eu estou tentando fazer regex encontrar e substituir no spark usando pyspark. Arquivokey tem 182417 linhas e arquivosjob possui 234085 linhas. Estou executando o pyspark na minha máquina virtual. df = ...
Agregação personalizada do Spark: collect_list + UDF vs UDAF
Geralmente, tenho a necessidade de realizar agregações personalizadas em quadros de dados no spark 2.1 e usei essas duas abordagens: usando groupby / collect_list para obter todos os valores em uma única linha e aplique um UDF para agregar os ...