Resultados da pesquisa a pedido "apache-spark"

8 a resposta

Obtendo NullPointerException ao executar o Spark Code no Zeppelin 0.7.1

Eu instaleiZeppelin 0.7.1. Quando tentei executar o programa spark Example (que estava disponível comZeppelin Tutorial notebook), estou recebendo o seguinte erro java.lang.NullPointerException ...

1 a resposta

Como listar todas as tabelas no banco de dados usando o Spark SQL?

Eu tenho uma conexão SparkSQL com um banco de dados externo: from pyspark.sql import SparkSession spark = SparkSession \ .builder \ .appName("Python Spark SQL basic example") \ .getOrCreate()Se eu souber o nome de uma tabela, é fácil ...

1 a resposta

Cálculo da matriz de correlação cruzada distribuída

Como posso calcular a matriz de correlação cruzada pearson de um conjunto de dados grande (> 10 TB), possivelmente de maneira distribuída? Qualquer sugestão eficiente de algoritmo distribuído será apreciada. atualização: eu li a implementação da ...

1 a resposta

Spark sem Hadoop: falha ao iniciar

Estou executando o Spark 2.1.0, Hive 2.1.1 e Hadoop 2.7.3 no Ubuntu 16.04. Eu baixo o projeto Spark do github e construo a versão "without hadoop": ./dev/make-distribution.sh --name "hadoop2-sem-ramificação" --tgz "-Pyarn, fornecido pelo ...

1 a resposta

Configurando o Spark como mecanismo de execução padrão para o Hive

Hadoop 2.7.3, Spark 2.1.0 e Hive 2.1.1. Estou tentando definir o spark como mecanismo de execução padrão para o hive. Carreguei todos os frascos em $ SPARK_HOME / jars na pasta hdfs e copiei os frascos comuns de scala-library, spark-core e ...

2 a resposta

Como carregar CSVs com registros de data e hora em formato personalizado?

Eu tenho um campo de carimbo de data / hora em um arquivo CSV que eu carrego em um dataframe usando a biblioteca spark CSV. O mesmo trecho de código funciona na minha máquina local com a versão Spark 2.0, mas gera um erro no Azure Hortonworks HDP ...

1 a resposta

Encontre mediana no spark SQL para várias colunas de tipos de dados duplos

Eu tenho um requisito para encontrar mediana para várias colunas de tipos de dados duplos. Solicitar sugestão para encontrar a abordagem correta. Abaixo está o meu conjunto de dados de amostra com uma coluna. Estou esperando que o valor mediano ...

1 a resposta

Particionando no Spark durante a leitura de RDBMS via JDBC

Estou executando o spark no modo de cluster e lendo dados do RDBMS via JDBC. Conforme Sparkdocs [http://spark.apache.org/docs/latest/sql-programming-guide.html#jdbc-to-other-databases] , esses parâmetros de particionamento descrevem como ...

1 a resposta

Particionamento inesperado do Spark HashPartitioner

estou usandoHashPartioner mas obtendo um resultado inesperado. Estou usando 3 String diferente como chaves e dando o parâmetro de partição como 3, então espero 3 partições. val cars = Array("Honda", "Toyota", "Kia") val carnamePrice = ...

1 a resposta

Desmembrar no spark-sql / pyspark

Eu tenho uma declaração do problema em mãos na qual desejo desagrupar a tabela no spark-sql / pyspark. Examinei a documentação e pude ver que há suporte apenas para o pivô, mas até agora não há suporte para o não pivô. Existe uma maneira ...