Resultados da pesquisa a pedido "apache-spark"
É possível definir variáveis globais em um notebook Zeppelin?
Estou tentando criar um painel com vários parágrafos usando um notebook Zeppelin. Eu gostaria que as pessoas que usavam o painel precisassem digitar determinados parâmetros apenas uma vez. Por exemplo. se estou criando um painel com informações ...
Como o Spark em execução no YARN explica o uso de memória do Python?
Após ler a documentação, não entendo como o Spark em execução no YARN explica o consumo de memória do Python. Isso conta paraspark.executor.memory, spark.executor.memoryOverhead ou onde? Em particular, eu tenho um aplicativo PySpark ...
entrada (nula) na exceção da cadeia de comandos em saveAsTextFile () no Pyspark
Estou trabalhando no PySpark em um notebook Jupyter (Python 2.7) no Windows 7. Tenho um RDD do tipopyspark.rdd.PipelinedRDD chamadoidSums. Ao tentar executaridSums.saveAsTextFile("Output"), Recebo o seguinte erro: Py4JJavaError: An error ...
Prática recomendada para iniciar aplicativos Spark via aplicativo Web?
Desejo expor meus aplicativos Spark aos usuários com um aplicativo Web. Basicamente, o usuário pode decidir qual ação ele deseja executar e inserir algumas variáveis, que precisam ser passadas para o aplicativo spark. Por exemplo: O usuário ...
Lidando com um grande arquivo compactado com gzip no Spark
Tenho um arquivo gzip grande (com cerca de 85 GB compactado) da s3 que estou tentando processar com o Spark no AWS EMR (agora com uma instância principal m4.xlarge e duas instâncias principais m4.10xlarge, cada uma com um volume EBS de 100 GB) . ...
Simulação de cores e simultaneidade de tarefas
Eu tenho uma pergunta muito básica sobre faísca. Eu costumo executar trabalhos de faísca usando 50 núcleos. Ao visualizar o progresso do trabalho, na maioria das vezes ele mostra 50 processos em execução em paralelo (como deveria ser feito), mas ...
Aplicativo Java Spark e Cassandra: Exceção no encadeamento “main” java.lang.NoClassDefFoundError: org / apache / spark / sql / Dataset
Eu tenho um aplicativo java incrivelmente siplme que quase copiei deste exemplo: http://markmail.org/download.xqy?id=zua6upabiylzeetp&number=2 [http://markmail.org/download.xqy?id=zua6upabiylzeetp&number=2] Tudo o que eu queria fazer era ler os ...
SparkSQL em tabelas HBase
Alguém está usando o SparkSQL nas tabelas HBase diretamente, como o SparkSQL nas tabelas Hive. Eu sou novo no spark.Por favor, guie-me como conectar o hbase e o spark.Como consultar em tabelas hbase.
Instalação e configuração do Titan para um cluster Spark e Cassandra
Já existem várias perguntas na lista de discussão aurelius, bem como aqui no stackoverflow, sobre problemas específicos com a configuração do Titan para que ele funcione com o Spark. Mas o que está faltando, na minha opinião, é uma descrição de ...
O DAG dinâmico Spark é muito mais lento e diferente do DAG codificado
Eu tenho uma operação no spark que deve ser executada para várias colunas em um quadro de dados. Geralmente, existem 2 possibilidades para especificar essas operações Código difícilhandleBias("bar", df) .join(handleBias("baz", df), ...