Resultados da pesquisa a pedido "apache-spark"

1 a resposta

Especifique opções para a jvm ativada pelo pyspark

Como / onde as opções da jvm são usadas pelo script pyspark ao iniciar a jvm à qual ele se conecta especificado? Estou especificamente interessado em especificar opções de depuração da jvm, ...

2 a resposta

org.apache.spark.SparkException: tarefa não serializável

Este é um exemplo de código funcional: JavaPairDStream<String, String> messages = KafkaUtils.createStream(javaStreamingContext, zkQuorum, group, topicMap); messages.print(); JavaDStream<String> lines = messages.map(new Function<Tuple2<String, ...

1 a resposta

HDFS do Hadoop com Spark

Eu sou novo na computação em cluster e estou tentando configurar um cluster mínimo de 2 nós no Spark. Ainda estou um pouco confuso: Preciso configurar uma instalação completa do Hadoop primeiro, para que o Spark envie uma versão incluída do ...

1 a resposta

Como definir uma variável global de escala no Spark que será compartilhada por todos os trabalhadores?

No programa Spark, QUERO definir uma variável como um mapa imutável que será acessado por todos os programas de trabalho de forma síncrona, o que posso fazer? Devo definir um objeto scala? Não apenas mapa imutável, e se eu quiser uma variável ...

2 a resposta

Como agrupar por várias chaves no spark?

Eu tenho um monte de tuplas que estão na forma de chaves e valores compostos. Por exemplo, tfile.collect() = [(('id1','pd1','t1'),5.0), (('id2','pd2','t2'),6.0), (('id1','pd1','t2'),7.5), (('id1','pd1','t3'),8.1) ]Quero executar operações como ...

1 a resposta

pyspark: dependência de jar de navio com envio de faísca

Eu escrevi um script pyspark que lê dois arquivos json,coGroup eles e envia o resultado para um cluster de pesquisa elástica; tudo funciona (principalmente) conforme o esperado quando eu o executo localmente, baixei oelasticsearch-hadoop arquivo ...

2 a resposta

Como executar o Spark no Docker?

Não é possível executar o Apache Spark no Docker. Quando tento me comunicar do meu driver com o spark master, recebo o próximo erro: 15/04/03 13:08:28 WARN TaskSchedulerImpl: O trabalho inicial não aceitou nenhum recurso; verifique a interface ...

3 a resposta

Quando os acumuladores são realmente confiáveis?

Quero usar um acumulador para reunir algumas estatísticas sobre os dados que estou manipulando em um trabalho do Spark. Idealmente, eu faria isso enquanto o trabalho calcula as transformações necessárias, mas como o Spark recalcula tarefas em ...

1 a resposta

A maneira mais fácil de instalar dependências do Python nos nós do executor do Spark?

Entendo que você pode enviar arquivos individuais como dependências com os programas Python Spark. Mas e as bibliotecas completas (por exemplo, numpy)? O Spark tem uma maneira de usar um gerenciador de pacotes fornecido (por exemplo, pip) para ...

2 a resposta

Exceção não serializável do Spark ao analisar JSON com json4s

Eu tive um problema ao tentar analisar json no meu trabalho de faísca. estou a usarspark 1.1.0, json4s, e asCassandra Spark Connector. A exceção lançada é: java.io.NotSerializableException: org.json4s.DefaultFormats Examinando o objeto ...