Resultados da pesquisa a pedido "apache-spark"
SparkException: Apenas um SparkContext pode estar em execução nesta JVM (consulte SPARK-2243)
Vejo várias postagens que contêm o mesmo erro que estou recebendo, mas nenhuma está me levando a uma correção no meu código. Eu usei exatamente esse mesmo código muitas vezes sem problemas e agora estou tendo problemas. Aqui está o erro que ...
Apache Livy: consulta Spark SQL via REST: possível?
A documentação do apache Livy é escassa: é possível retornar os conjuntos de resultados da consulta Spark SQL como chamadas REST usando o Apache Livy? O aplicativo de chamada é móvel e não pode usar odbc / jdbc para conectar-se. Portanto, o ...
Ao executar com o 'fio' principal, HADOOP_CONF_DIR ou YARN_CONF_DIR deve ser configurado no ambiente
Estou tentando executar o Spark usando fio e estou com este erro: Exceção no encadeamento "main" java.lang.Exception: Ao executar com o mestre 'fio', HADOOP_CONF_DIR ou YARN_CONF_DIR deve ser configurado no ambiente. Não sei onde está o ...
Qual é a diferença entre spark.sql.shuffle.partitions e spark.default.parallelism?
Qual é a diferença entrespark.sql.shuffle.partitions espark.default.parallelism? Eu tentei colocar os dois emSparkSQL, mas o número da tarefa do segundo estágio é sempre 200.
Como createOrReplaceTempView funciona no Spark?
Eu sou novo no Spark e Spark SQL. ComocreateOrReplaceTempView trabalhar no Spark? Se registrarmos umRDD de objetos como uma tabela irá acender manter todos os dados na memória?
módulo definido pelo usuário de importação pyspark ou arquivos .py
Eu construí ummódulo python [https://docs.python.org/2/tutorial/modules.html]e quero importá-lo no meu aplicativo pyspark. Minha estrutura de diretório de pacotes é: wesam/ |-- data.py `-- __init__.pyUm simplesimport wesam no topo do meu ...
Por que não existe função de mapa para o dataframe no pyspark enquanto o equivalente do spark possui?
Atualmente trabalhando no PySpark. Não há função de mapa ativadaDataFramee é preciso ir paraRDD paramap função. Em Scala, há umamap emDataFrame, Existe alguma razão para isso?
pyspark rdd isCheckPointed () é false
Eu estava encontrando stackoverflowerrors quando adicionava iterativamente mais de 500 colunas ao meu dataframe pyspark. Então, incluí pontos de verificação. Os pontos de verificação não ajudaram. Portanto, criei o seguinte aplicativo ...
Como obter a saída do console streaming streaming no Zeppelin?
Estou lutando para conseguir oconsole pia trabalhando comStreaming estruturado do PySpark [https://spark.apache.org/docs/2.2.0/structured-streaming-programming-guide.html] quando executado a partir de Zeppelin. Basicamente, não estou vendo ...
Como usar o s3 com o Apache spark 2.2 no shell Spark
Estou tentando carregar dados de um bucket do Amazon AWS S3, enquanto estiver no shell Spark. Consultei os seguintes recursos: Analisando arquivos do Amazon S3 com Apache ...