Resultados da pesquisa a pedido "apache-spark"
Obtendo NullPointerException ao executar o Spark Code no Zeppelin 0.7.1
Eu instaleiZeppelin 0.7.1. Quando tentei executar o programa spark Example (que estava disponível comZeppelin Tutorial notebook), estou recebendo o seguinte erro java.lang.NullPointerException ...
Como listar todas as tabelas no banco de dados usando o Spark SQL?
Eu tenho uma conexão SparkSQL com um banco de dados externo: from pyspark.sql import SparkSession spark = SparkSession \ .builder \ .appName("Python Spark SQL basic example") \ .getOrCreate()Se eu souber o nome de uma tabela, é fácil ...
Cálculo da matriz de correlação cruzada distribuída
Como posso calcular a matriz de correlação cruzada pearson de um conjunto de dados grande (> 10 TB), possivelmente de maneira distribuída? Qualquer sugestão eficiente de algoritmo distribuído será apreciada. atualização: eu li a implementação da ...
Spark sem Hadoop: falha ao iniciar
Estou executando o Spark 2.1.0, Hive 2.1.1 e Hadoop 2.7.3 no Ubuntu 16.04. Eu baixo o projeto Spark do github e construo a versão "without hadoop": ./dev/make-distribution.sh --name "hadoop2-sem-ramificação" --tgz "-Pyarn, fornecido pelo ...
Configurando o Spark como mecanismo de execução padrão para o Hive
Hadoop 2.7.3, Spark 2.1.0 e Hive 2.1.1. Estou tentando definir o spark como mecanismo de execução padrão para o hive. Carreguei todos os frascos em $ SPARK_HOME / jars na pasta hdfs e copiei os frascos comuns de scala-library, spark-core e ...
Como carregar CSVs com registros de data e hora em formato personalizado?
Eu tenho um campo de carimbo de data / hora em um arquivo CSV que eu carrego em um dataframe usando a biblioteca spark CSV. O mesmo trecho de código funciona na minha máquina local com a versão Spark 2.0, mas gera um erro no Azure Hortonworks HDP ...
Encontre mediana no spark SQL para várias colunas de tipos de dados duplos
Eu tenho um requisito para encontrar mediana para várias colunas de tipos de dados duplos. Solicitar sugestão para encontrar a abordagem correta. Abaixo está o meu conjunto de dados de amostra com uma coluna. Estou esperando que o valor mediano ...
Particionando no Spark durante a leitura de RDBMS via JDBC
Estou executando o spark no modo de cluster e lendo dados do RDBMS via JDBC. Conforme Sparkdocs [http://spark.apache.org/docs/latest/sql-programming-guide.html#jdbc-to-other-databases] , esses parâmetros de particionamento descrevem como ...
Particionamento inesperado do Spark HashPartitioner
estou usandoHashPartioner mas obtendo um resultado inesperado. Estou usando 3 String diferente como chaves e dando o parâmetro de partição como 3, então espero 3 partições. val cars = Array("Honda", "Toyota", "Kia") val carnamePrice = ...
Desmembrar no spark-sql / pyspark
Eu tenho uma declaração do problema em mãos na qual desejo desagrupar a tabela no spark-sql / pyspark. Examinei a documentação e pude ver que há suporte apenas para o pivô, mas até agora não há suporte para o não pivô. Existe uma maneira ...