Resultados da pesquisa a pedido "apache-spark"
Como faço para subir no HDFS com spark?
Eu particionei dados no HDFS. Em algum momento eu decido atualizá-lo. O algoritmo é: Leia os novos dados de um tópico kafk Descubra novos nomes de partição de dado Carregue os dados das partições com esses nomes que estão no HDFMerge os dados do ...
Zeppeling lançando NullPointerException ao configurar
Estou tentando configurar o zeppelin-0.8.0 no meu windos 8 r2 OS. Já executei o spark no meu console, ou seja, SPARK_HOME e JAVA_HOME, HADOOP_HOME foram configurados e estão funcionando bem. Mas enquanto estou tentando executar printl ("olá") no ...
etecção eficiente de sufixos de stri
Estou trabalhando com o PySpark em um enorme conjunto de dados, no qual desejo filtrar o quadro de dados com base nas seqüências de caracteres em outro quadro de dados. Por exemplo dd ...
Como criar um json aninhado no Pyspark?
Estou tentando criar um json aninhado a partir dos dados abaixo. Somente os nomes dos campos comosegid eval são constantes, o resto não é constante. Eu preciso colocá-los na lista de categorias. Poderia ajudar por favor [/imgs/NRMzc.png] ...
Esquema gerado dinamicamente no arquivo json para um arquivo de dados csv no scala
Precisa de ajuda para definir um esquema dinâmico com campos e tipos de dados do arquivo JSon de metadados de entrada para os dados em um arquivo csv no Databrick Desejo definir um esquema que mapeie o nome do campo com o tipo de ...
mplementação @Pyspark do DATEADD
Eu tenho meu código T-SQL como mostrado abaixo cast( dateadd(minute, - 240, tmp_view_tos_lenelgate_qry11.eventdate) as dateComo implementarDATE_ADD função no PYSPARK?
Adicionando uma coluna de contagem à minha sequência no Scala
Dado o código abaixo, como eu adicionaria uma coluna de contagem? (por exemplo, .count ("*"). as ("count")) Saída final para algo parecido com isto: +---+------+------+-----------------------------+------ | id|sum(d)|max(b)|concat_ws(,, ...
Como classificar o DataFrame com meu comparador usando o Scala?
Gostaria de classificar um DataFrame com base em uma coluna com meu próprio comparador. É possível fazer isso no Spark SQL? Por exemplo, suponha que eu tenha um DataFrame registrado como Tabela "MyTable" com uma coluna "Day" cujo tipo é ...