Resultados da pesquisa a pedido "apache-spark"
Especifique opções para a jvm ativada pelo pyspark
Como / onde as opções da jvm são usadas pelo script pyspark ao iniciar a jvm à qual ele se conecta especificado? Estou especificamente interessado em especificar opções de depuração da jvm, ...
org.apache.spark.SparkException: tarefa não serializável
Este é um exemplo de código funcional: JavaPairDStream<String, String> messages = KafkaUtils.createStream(javaStreamingContext, zkQuorum, group, topicMap); messages.print(); JavaDStream<String> lines = messages.map(new Function<Tuple2<String, ...
HDFS do Hadoop com Spark
Eu sou novo na computação em cluster e estou tentando configurar um cluster mínimo de 2 nós no Spark. Ainda estou um pouco confuso: Preciso configurar uma instalação completa do Hadoop primeiro, para que o Spark envie uma versão incluída do ...
Como definir uma variável global de escala no Spark que será compartilhada por todos os trabalhadores?
No programa Spark, QUERO definir uma variável como um mapa imutável que será acessado por todos os programas de trabalho de forma síncrona, o que posso fazer? Devo definir um objeto scala? Não apenas mapa imutável, e se eu quiser uma variável ...
Como agrupar por várias chaves no spark?
Eu tenho um monte de tuplas que estão na forma de chaves e valores compostos. Por exemplo, tfile.collect() = [(('id1','pd1','t1'),5.0), (('id2','pd2','t2'),6.0), (('id1','pd1','t2'),7.5), (('id1','pd1','t3'),8.1) ]Quero executar operações como ...
pyspark: dependência de jar de navio com envio de faísca
Eu escrevi um script pyspark que lê dois arquivos json,coGroup eles e envia o resultado para um cluster de pesquisa elástica; tudo funciona (principalmente) conforme o esperado quando eu o executo localmente, baixei oelasticsearch-hadoop arquivo ...
Como executar o Spark no Docker?
Não é possível executar o Apache Spark no Docker. Quando tento me comunicar do meu driver com o spark master, recebo o próximo erro: 15/04/03 13:08:28 WARN TaskSchedulerImpl: O trabalho inicial não aceitou nenhum recurso; verifique a interface ...
Quando os acumuladores são realmente confiáveis?
Quero usar um acumulador para reunir algumas estatísticas sobre os dados que estou manipulando em um trabalho do Spark. Idealmente, eu faria isso enquanto o trabalho calcula as transformações necessárias, mas como o Spark recalcula tarefas em ...
A maneira mais fácil de instalar dependências do Python nos nós do executor do Spark?
Entendo que você pode enviar arquivos individuais como dependências com os programas Python Spark. Mas e as bibliotecas completas (por exemplo, numpy)? O Spark tem uma maneira de usar um gerenciador de pacotes fornecido (por exemplo, pip) para ...
Exceção não serializável do Spark ao analisar JSON com json4s
Eu tive um problema ao tentar analisar json no meu trabalho de faísca. estou a usarspark 1.1.0, json4s, e asCassandra Spark Connector. A exceção lançada é: java.io.NotSerializableException: org.json4s.DefaultFormats Examinando o objeto ...