Resultados da pesquisa a pedido "apache-spark"

1 a resposta

SparkException: Apenas um SparkContext pode estar em execução nesta JVM (consulte SPARK-2243)

Vejo várias postagens que contêm o mesmo erro que estou recebendo, mas nenhuma está me levando a uma correção no meu código. Eu usei exatamente esse mesmo código muitas vezes sem problemas e agora estou tendo problemas. Aqui está o erro que ...

1 a resposta

Apache Livy: consulta Spark SQL via REST: possível?

A documentação do apache Livy é escassa: é possível retornar os conjuntos de resultados da consulta Spark SQL como chamadas REST usando o Apache Livy? O aplicativo de chamada é móvel e não pode usar odbc / jdbc para conectar-se. Portanto, o ...

1 a resposta

Ao executar com o 'fio' principal, HADOOP_CONF_DIR ou YARN_CONF_DIR deve ser configurado no ambiente

Estou tentando executar o Spark usando fio e estou com este erro: Exceção no encadeamento "main" java.lang.Exception: Ao executar com o mestre 'fio', HADOOP_CONF_DIR ou YARN_CONF_DIR deve ser configurado no ambiente. Não sei onde está o ...

2 a resposta

Qual é a diferença entre spark.sql.shuffle.partitions e spark.default.parallelism?

Qual é a diferença entrespark.sql.shuffle.partitions espark.default.parallelism? Eu tentei colocar os dois emSparkSQL, mas o número da tarefa do segundo estágio é sempre 200.

3 a resposta

Como createOrReplaceTempView funciona no Spark?

Eu sou novo no Spark e Spark SQL. ComocreateOrReplaceTempView trabalhar no Spark? Se registrarmos umRDD de objetos como uma tabela irá acender manter todos os dados na memória?

2 a resposta

módulo definido pelo usuário de importação pyspark ou arquivos .py

Eu construí ummódulo python [https://docs.python.org/2/tutorial/modules.html]e quero importá-lo no meu aplicativo pyspark. Minha estrutura de diretório de pacotes é: wesam/ |-- data.py `-- __init__.pyUm simplesimport wesam no topo do meu ...

1 a resposta

Por que não existe função de mapa para o dataframe no pyspark enquanto o equivalente do spark possui?

Atualmente trabalhando no PySpark. Não há função de mapa ativadaDataFramee é preciso ir paraRDD paramap função. Em Scala, há umamap emDataFrame, Existe alguma razão para isso?

1 a resposta

pyspark rdd isCheckPointed () é false

Eu estava encontrando stackoverflowerrors quando adicionava iterativamente mais de 500 colunas ao meu dataframe pyspark. Então, incluí pontos de verificação. Os pontos de verificação não ajudaram. Portanto, criei o seguinte aplicativo ...

2 a resposta

Como obter a saída do console streaming streaming no Zeppelin?

Estou lutando para conseguir oconsole pia trabalhando comStreaming estruturado do PySpark [https://spark.apache.org/docs/2.2.0/structured-streaming-programming-guide.html] quando executado a partir de Zeppelin. Basicamente, não estou vendo ...

1 a resposta

Como usar o s3 com o Apache spark 2.2 no shell Spark

Estou tentando carregar dados de um bucket do Amazon AWS S3, enquanto estiver no shell Spark. Consultei os seguintes recursos: Analisando arquivos do Amazon S3 com Apache ...