Resultados da pesquisa a pedido "apache-spark"

1 a resposta

Como faço para subir no HDFS com spark?

Eu particionei dados no HDFS. Em algum momento eu decido atualizá-lo. O algoritmo é: Leia os novos dados de um tópico kafk Descubra novos nomes de partição de dado Carregue os dados das partições com esses nomes que estão no HDFMerge os dados do ...

0 a resposta

Zeppeling lançando NullPointerException ao configurar

Estou tentando configurar o zeppelin-0.8.0 no meu windos 8 r2 OS. Já executei o spark no meu console, ou seja, SPARK_HOME e JAVA_HOME, HADOOP_HOME foram configurados e estão funcionando bem. Mas enquanto estou tentando executar printl ("olá") no ...

2 a resposta

etecção eficiente de sufixos de stri

Estou trabalhando com o PySpark em um enorme conjunto de dados, no qual desejo filtrar o quadro de dados com base nas seqüências de caracteres em outro quadro de dados. Por exemplo dd ...

1 a resposta

Como criar um json aninhado no Pyspark?

Estou tentando criar um json aninhado a partir dos dados abaixo. Somente os nomes dos campos comosegid eval são constantes, o resto não é constante. Eu preciso colocá-los na lista de categorias. Poderia ajudar por favor [/imgs/NRMzc.png] ...

0 a resposta

Esquema gerado dinamicamente no arquivo json para um arquivo de dados csv no scala

Precisa de ajuda para definir um esquema dinâmico com campos e tipos de dados do arquivo JSon de metadados de entrada para os dados em um arquivo csv no Databrick Desejo definir um esquema que mapeie o nome do campo com o tipo de ...

1 a resposta

mplementação @Pyspark do DATEADD

Eu tenho meu código T-SQL como mostrado abaixo cast( dateadd(minute, - 240, tmp_view_tos_lenelgate_qry11.eventdate) as dateComo implementarDATE_ADD função no PYSPARK?

1 a resposta

Adicionando uma coluna de contagem à minha sequência no Scala

Dado o código abaixo, como eu adicionaria uma coluna de contagem? (por exemplo, .count ("*"). as ("count")) Saída final para algo parecido com isto: +---+------+------+-----------------------------+------ | id|sum(d)|max(b)|concat_ws(,, ...

2 a resposta

Como classificar o DataFrame com meu comparador usando o Scala?

Gostaria de classificar um DataFrame com base em uma coluna com meu próprio comparador. É possível fazer isso no Spark SQL? Por exemplo, suponha que eu tenha um DataFrame registrado como Tabela "MyTable" com uma coluna "Day" cujo tipo é ...