Resultados da pesquisa a pedido "apache-spark"
Como solucionar problemas de um notebook agendado DSX?
Eu tenho um notebook DSX que posso executar manualmente usando a interface do usuário DSX e ele preenche alguns dados em um banco de dados Cloudant. Programei que o notebook funcionaria a cada hora. Durante a noite, eu esperava que o trabalho ...
Como ler recursivamente arquivos Hadoop do diretório usando o Spark?
Dentro do diretório fornecido, tenho muitas pastas diferentes e, dentro de cada pasta, tenho arquivos Hadoop (part_001etc.). directory -> folder1 -> part_001... -> part_002... -> folder2 -> part_001... ... Dado o diretório, como posso ler ...
Descartando partições vazias do DataFrame no Apache Spark
Tento reparticionar um DataFrame de acordo com uma coluna que o DataFrame possuiN (deixe dizerN=3) valores diferentes na coluna da partiçãox, por exemplo: val myDF = sc.parallelize(Seq(1,1,2,2,3,3)).toDF("x") // create dummy dataO que eu gosto ...
Ativar diferenciação de maiúsculas e minúsculas para spark.sql globalmente
A opçãospark.sql.caseSensitive controla se os nomes de colunas etc. devem diferenciar maiúsculas de minúsculas ou não. Pode ser definido por ex. por spark_session.sql('set spark.sql.caseSensitive=true')e éfalse por padrão. Não parece possível ...
Relatório do Spark Hive pyspark.sql.utils.AnalysisException: u'Table não encontrado: XXX 'quando executado no cluster de fios
Estou tentando executar um script pyspark no BigInsights on Cloud 4.2 Enterprise que acessa uma tabela do Hive. Primeiro, crio a tabela de seção: [biadmin@bi4c-xxxxx-mastermanager ~]$ hive hive> CREATE TABLE pokes (foo INT, bar STRING); OK Time ...
Pyspark: passe várias colunas em UDF
Estou escrevendo uma Função Definida pelo Usuário que pega todas as colunas, exceto a primeira em um quadro de dados e soma (ou qualquer outra operação). Agora, o quadro de dados às vezes pode ter 3 colunas ou 4 colunas ou mais. Isso varia. Eu ...
Erro ao inicializar o SparkContext: Um URL principal deve ser definido na sua configuração
eu useiesse código [https://github.com/prashantprakash/KDDDataResearch/blob/master/Code/approach1Plus2/src/main/scala/PCA.scala] Meu erro é: Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties 17/02/03 20:39:24 INFO ...
A coalescência (numPartitions) na faísca sofre embaralhamento ou não?
Eu tenho uma pergunta simples na função de transformação de faísca. coalescência (numPartitions) - diminua o número de partições no RDD para numPartitions. Útil para executar operações com mais eficiência depois de filtrar um grande conjunto de ...
Scala - Spark In Dataframe recupera, para linha, nome da coluna com valor máximo
Eu tenho um DataFrame: name column1 column2 column3 column4 first 2 1 2.1 5.4 test 1.5 0.5 0.9 3.7 choose 7 2.9 9.1 2.5Eu quero um novo quadro de dados com uma coluna com contem, o nome da coluna com o valor máximo para a linha: | name | ...
Relatórios do Spark Hive ClassNotFoundException: com.ibm.biginsights.bigsql.sync.BIEventListener
Estou tentando executar um script pyspark no BigInsights on Cloud 4.2 Enterprise que acessa uma tabela do Hive. Primeiro, crio a tabela de seção: [biadmin@bi4c-xxxxx-mastermanager ~]$ hive hive> CREATE TABLE pokes (foo INT, bar STRING); OK Time ...