Resultados da pesquisa a pedido "apache-spark"

2 a resposta

É possível definir variáveis globais em um notebook Zeppelin?

Estou tentando criar um painel com vários parágrafos usando um notebook Zeppelin. Eu gostaria que as pessoas que usavam o painel precisassem digitar determinados parâmetros apenas uma vez. Por exemplo. se estou criando um painel com informações ...

1 a resposta

Como o Spark em execução no YARN explica o uso de memória do Python?

Após ler a documentação, não entendo como o Spark em execução no YARN explica o consumo de memória do Python. Isso conta paraspark.executor.memory, spark.executor.memoryOverhead ou onde? Em particular, eu tenho um aplicativo PySpark ...

3 a resposta

entrada (nula) na exceção da cadeia de comandos em saveAsTextFile () no Pyspark

Estou trabalhando no PySpark em um notebook Jupyter (Python 2.7) no Windows 7. Tenho um RDD do tipopyspark.rdd.PipelinedRDD chamadoidSums. Ao tentar executaridSums.saveAsTextFile("Output"), Recebo o seguinte erro: Py4JJavaError: An error ...

2 a resposta

Prática recomendada para iniciar aplicativos Spark via aplicativo Web?

Desejo expor meus aplicativos Spark aos usuários com um aplicativo Web. Basicamente, o usuário pode decidir qual ação ele deseja executar e inserir algumas variáveis, que precisam ser passadas para o aplicativo spark. Por exemplo: O usuário ...

3 a resposta

Lidando com um grande arquivo compactado com gzip no Spark

Tenho um arquivo gzip grande (com cerca de 85 GB compactado) da s3 que estou tentando processar com o Spark no AWS EMR (agora com uma instância principal m4.xlarge e duas instâncias principais m4.10xlarge, cada uma com um volume EBS de 100 GB) . ...

1 a resposta

Simulação de cores e simultaneidade de tarefas

Eu tenho uma pergunta muito básica sobre faísca. Eu costumo executar trabalhos de faísca usando 50 núcleos. Ao visualizar o progresso do trabalho, na maioria das vezes ele mostra 50 processos em execução em paralelo (como deveria ser feito), mas ...

3 a resposta

Aplicativo Java Spark e Cassandra: Exceção no encadeamento “main” java.lang.NoClassDefFoundError: org / apache / spark / sql / Dataset

Eu tenho um aplicativo java incrivelmente siplme que quase copiei deste exemplo: http://markmail.org/download.xqy?id=zua6upabiylzeetp&number=2 [http://markmail.org/download.xqy?id=zua6upabiylzeetp&number=2] Tudo o que eu queria fazer era ler os ...

1 a resposta

SparkSQL em tabelas HBase

Alguém está usando o SparkSQL nas tabelas HBase diretamente, como o SparkSQL nas tabelas Hive. Eu sou novo no spark.Por favor, guie-me como conectar o hbase e o spark.Como consultar em tabelas hbase.

1 a resposta

Instalação e configuração do Titan para um cluster Spark e Cassandra

Já existem várias perguntas na lista de discussão aurelius, bem como aqui no stackoverflow, sobre problemas específicos com a configuração do Titan para que ele funcione com o Spark. Mas o que está faltando, na minha opinião, é uma descrição de ...

1 a resposta

O DAG dinâmico Spark é muito mais lento e diferente do DAG codificado

Eu tenho uma operação no spark que deve ser executada para várias colunas em um quadro de dados. Geralmente, existem 2 possibilidades para especificar essas operações Código difícilhandleBias("bar", df) .join(handleBias("baz", df), ...