Resultados da pesquisa a pedido "apache-spark"

1 a resposta

Acessando tabelas do Hive com faísca

Eu tenho a instalação do Hive 0.13 e criei bancos de dados personalizados. Eu tenho o cluster de nó único do spark 1.1.0, criado usando a opção mvn -hive. Eu quero acessar tabelas neste banco de dados no aplicativo spark usando o hivecontext. Mas ...

5 a resposta

Por que o PySpark não encontra o py4j.java_gateway?

Instalei o Spark, executei o conjunto sbt e posso abrir o bin / pyspark sem nenhum problema. No entanto, estou com problemas para carregar o módulo pyspark no ipython. Estou recebendo o seguinte erro: In [1]: import ...

1 a resposta

Como o particionamento funciona no Spark?

Estou tentando entender como o particionamento é feito no Apache Spark. Vocês podem ajudar por favor? Aqui está o cenário: um mestre e dois nós com 1 núcleo cadaum arquivocount.txt de 10 MB em tamanho Quantas partições são criadas a ...

1 a resposta

apache spark, "falha ao criar qualquer diretório local"

Estou tentando configurar o Apache-Spark em um pequeno cluster autônomo (1 nó mestre e 8 nós escravos). Eu instalei a versão "pré-criada" do spark 1.1.0, construída sobre o Hadoop 2.4. Eu configurei o ssh sem senha entre os nós e exportei algumas ...

1 a resposta

Chamando o JDBC para impala / seção de dentro de um trabalho de faísca e criando uma tabela

Estou tentando escrever um trabalho de faísca no scala que abra uma conexão jdbc com o Impala e deixe-me criar uma tabela e executar outras operações. Como eu faço isso? Qualquer exemplo seria de grande ajuda. Obrigado!

3 a resposta

Como funciona a função pyspark mapPartitions?

Então, eu estou tentando aprender o Spark usando Python (Pyspark). Eu quero saber como a funçãomapPartitions trabalhos. Isso é o que é necessário e o que é gerado. Não consegui encontrar nenhum exemplo adequado da internet. Digamos, eu tenho um ...

2 a resposta

Qual é a diferença entre spark-submit e pyspark?

Se eu iniciar o pyspark e, em seguida, execute este comando: import my_script; spark = my_script.Sparker(sc); spark.collapse('./data/')Tudo está bem. Se, no entanto, eu tentar fazer a mesma coisa através da linha de comando e envio de spark, ...

2 a resposta

SPARK Custo de inicialização da conexão com o banco de dados no contexto map / mapPartitions

Exemplos emprestados da Internet, graças àqueles com melhores insights.O seguinte pode ser encontrado em vários fóruns em relação ao mapPartitions e map: ... Consider the case of Initializing a database. If we are using map() or foreach(), the ...

1 a resposta

Imprimindo o ClusterID e seus elementos usando o Spark KMeans.

Eu tenho este programa que imprime o algoritmo MSSE of Kmeans no apache-spark. Existem 20 clusters gerados. Estou tentando imprimir o clusterID e os elementos que foram atribuídos ao respectivo clusterID. Como faço um loop sobre o clusterID para ...

2 a resposta

A amostra do Apache Spark Kinesis não está funcionando

Estou tentando executar oJavaKinesisWordCountASL [https://github.com/apache/spark/blob/master/extras/kinesis-asl/src/main/java/org/apache/spark/examples/streaming/JavaKinesisWordCountASL.java] exemplo. O exemplo parece conectar-se ao meu fluxo ...