Resultados da pesquisa a pedido "apache-spark"

1 a resposta

Conexão recusada ao executar o SparkPi localmente

Estou tentando executar uma execução simples do exemplo SparkPi. Iniciei o mestre e um trabalhador, depois executei o trabalho no meu "cluster" local, mas acabei recebendo uma sequência de erros, todos terminando com Caused ...

2 a resposta

Problema de memória com streaming estruturado spark

Estou enfrentando problemas de memória executando fluxo estruturado com agregação e particionamento no Spark 2.2.0: session .readStream() .schema(inputSchema) .option(OPTION_KEY_DELIMITER, OPTION_VALUE_DELIMITER_TAB) ...

0 a resposta

Agregação de fluxo estruturado Spark para dados antigos de registro de data e hora

Estou tentando agregar a contagem de registros a cada 10 segundos usando o streaming estruturado para os seguintes dados Kafka recebidos { "ts2" : "2018/05/01 00:02:50.041", "serviceGroupId" : "123", "userId" : "avv-0", "stream" : "", ...

1 a resposta

Spark Structured Streaming com fonte RabbitMQ

Estou tentando escrever um receptor personalizado paraStructured Streaming que consumirá mensagens deRabbitMQ. Spark lançado recentemente [https://databricks.com/blog/2018/02/28/introducing-apache-spark-2-3.html]API DataSource V2, o que parece ...

6 a resposta

Tarefa não serializável: java.io.NotSerializableException ao chamar a função fora do fechamento apenas em classes e não em objetos

Obtendo um comportamento estranho ao chamar a função fora de um fechamento: quando a função está em um objeto, tudo está funcionandoquando a função está em uma classe get:Tarefa não serializável: java.io.NotSerializableException: testing O ...

2 a resposta

O Spark fica sem memória ao agrupar por chave

Estou tentando executar uma transformação simples de dados de rastreamento comuns usando o host Spark em um EC2 usandoeste guia [http://spark-summit.org/2013/exercises/launching-a-bdas-cluster-on-ec2.html], meu código fica assim: package ccminer ...

1 a resposta

Spark submit (2.3) no cluster kubernetes do Python

Portanto, agora que o k8s é integrado diretamente ao spark no 2.3, o envio do meu spark a partir do console é executado corretamente em um mestre do kuberenetes sem nenhum pod do spark master em execução, o spark lida com todos os detalhes do ...

1 a resposta

Spark: desenhe a curva de aprendizado de um modelo com spark

Estou usando o Spark e gostaria de treinar um modelo de aprendizado de máquina. Por causa de maus resultados, gostaria de exibir o erro cometido pelo modelo em cada época do treinamento (no conjunto de dados de treinamento e teste). Utilizarei ...

0 a resposta

Py4JJavaError no spark

Eu tenho abaixo código através do qual eu estou tentando fazer regex encontrar e substituir no spark usando pyspark. Arquivokey tem 182417 linhas e arquivosjob possui 234085 linhas. Estou executando o pyspark na minha máquina virtual. df = ...

0 a resposta

Agregação personalizada do Spark: collect_list + UDF vs UDAF

Geralmente, tenho a necessidade de realizar agregações personalizadas em quadros de dados no spark 2.1 e usei essas duas abordagens: usando groupby / collect_list para obter todos os valores em uma única linha e aplique um UDF para agregar os ...