Resultados da pesquisa a pedido "apache-spark"

3 a resposta

Como solucionar problemas de um notebook agendado DSX?

Eu tenho um notebook DSX que posso executar manualmente usando a interface do usuário DSX e ele preenche alguns dados em um banco de dados Cloudant. Programei que o notebook funcionaria a cada hora. Durante a noite, eu esperava que o trabalho ...

2 a resposta

Como ler recursivamente arquivos Hadoop do diretório usando o Spark?

Dentro do diretório fornecido, tenho muitas pastas diferentes e, dentro de cada pasta, tenho arquivos Hadoop (part_001etc.). directory -> folder1 -> part_001... -> part_002... -> folder2 -> part_001... ... Dado o diretório, como posso ler ...

1 a resposta

Descartando partições vazias do DataFrame no Apache Spark

Tento reparticionar um DataFrame de acordo com uma coluna que o DataFrame possuiN (deixe dizerN=3) valores diferentes na coluna da partiçãox, por exemplo: val myDF = sc.parallelize(Seq(1,1,2,2,3,3)).toDF("x") // create dummy dataO que eu gosto ...

1 a resposta

Ativar diferenciação de maiúsculas e minúsculas para spark.sql globalmente

A opçãospark.sql.caseSensitive controla se os nomes de colunas etc. devem diferenciar maiúsculas de minúsculas ou não. Pode ser definido por ex. por spark_session.sql('set spark.sql.caseSensitive=true')e éfalse por padrão. Não parece possível ...

2 a resposta

Relatório do Spark Hive pyspark.sql.utils.AnalysisException: u'Table não encontrado: XXX 'quando executado no cluster de fios

Estou tentando executar um script pyspark no BigInsights on Cloud 4.2 Enterprise que acessa uma tabela do Hive. Primeiro, crio a tabela de seção: [biadmin@bi4c-xxxxx-mastermanager ~]$ hive hive> CREATE TABLE pokes (foo INT, bar STRING); OK Time ...

3 a resposta

Pyspark: passe várias colunas em UDF

Estou escrevendo uma Função Definida pelo Usuário que pega todas as colunas, exceto a primeira em um quadro de dados e soma (ou qualquer outra operação). Agora, o quadro de dados às vezes pode ter 3 colunas ou 4 colunas ou mais. Isso varia. Eu ...

3 a resposta

Erro ao inicializar o SparkContext: Um URL principal deve ser definido na sua configuração

eu useiesse código [https://github.com/prashantprakash/KDDDataResearch/blob/master/Code/approach1Plus2/src/main/scala/PCA.scala] Meu erro é: Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties 17/02/03 20:39:24 INFO ...

1 a resposta

A coalescência (numPartitions) na faísca sofre embaralhamento ou não?

Eu tenho uma pergunta simples na função de transformação de faísca. coalescência (numPartitions) - diminua o número de partições no RDD para numPartitions. Útil para executar operações com mais eficiência depois de filtrar um grande conjunto de ...

3 a resposta

Scala - Spark In Dataframe recupera, para linha, nome da coluna com valor máximo

Eu tenho um DataFrame: name column1 column2 column3 column4 first 2 1 2.1 5.4 test 1.5 0.5 0.9 3.7 choose 7 2.9 9.1 2.5Eu quero um novo quadro de dados com uma coluna com contem, o nome da coluna com o valor máximo para a linha: | name | ...

1 a resposta

Relatórios do Spark Hive ClassNotFoundException: com.ibm.biginsights.bigsql.sync.BIEventListener

Estou tentando executar um script pyspark no BigInsights on Cloud 4.2 Enterprise que acessa uma tabela do Hive. Primeiro, crio a tabela de seção: [biadmin@bi4c-xxxxx-mastermanager ~]$ hive hive> CREATE TABLE pokes (foo INT, bar STRING); OK Time ...