Resultados da pesquisa a pedido "apache-spark"
Adicionando uma coluna de contagem à minha sequência no Scala
Dado o código abaixo, como eu adicionaria uma coluna de contagem? (por exemplo, .count ("*"). as ("count")) Saída final para algo parecido com isto: +---+------+------+-----------------------------+------ | id|sum(d)|max(b)|concat_ws(,, ...
Como classificar o DataFrame com meu comparador usando o Scala?
Gostaria de classificar um DataFrame com base em uma coluna com meu próprio comparador. É possível fazer isso no Spark SQL? Por exemplo, suponha que eu tenha um DataFrame registrado como Tabela "MyTable" com uma coluna "Day" cujo tipo é ...
mplementação @Pyspark do DATEADD
Eu tenho meu código T-SQL como mostrado abaixo cast( dateadd(minute, - 240, tmp_view_tos_lenelgate_qry11.eventdate) as dateComo implementarDATE_ADD função no PYSPARK?
Esquema gerado dinamicamente no arquivo json para um arquivo de dados csv no scala
Precisa de ajuda para definir um esquema dinâmico com campos e tipos de dados do arquivo JSon de metadados de entrada para os dados em um arquivo csv no Databrick Desejo definir um esquema que mapeie o nome do campo com o tipo de ...
etecção eficiente de sufixos de stri
Estou trabalhando com o PySpark em um enorme conjunto de dados, no qual desejo filtrar o quadro de dados com base nas seqüências de caracteres em outro quadro de dados. Por exemplo dd ...
Como criar um json aninhado no Pyspark?
Estou tentando criar um json aninhado a partir dos dados abaixo. Somente os nomes dos campos comosegid eval são constantes, o resto não é constante. Eu preciso colocá-los na lista de categorias. Poderia ajudar por favor [/imgs/NRMzc.png] ...
Zeppeling lançando NullPointerException ao configurar
Estou tentando configurar o zeppelin-0.8.0 no meu windos 8 r2 OS. Já executei o spark no meu console, ou seja, SPARK_HOME e JAVA_HOME, HADOOP_HOME foram configurados e estão funcionando bem. Mas enquanto estou tentando executar printl ("olá") no ...
Como faço para subir no HDFS com spark?
Eu particionei dados no HDFS. Em algum momento eu decido atualizá-lo. O algoritmo é: Leia os novos dados de um tópico kafk Descubra novos nomes de partição de dado Carregue os dados das partições com esses nomes que estão no HDFMerge os dados do ...
Como inserir o DataFrame de fluxo estruturado spark na tabela / localização externa do Hiv
ma consulta na integração de streaming estruturado spark com a tabela HIV Tentei fazer alguns exemplos de streaming estruturado com faísc aqui é meu exemplo val spark =SparkSession.builder().appName("StatsAnalyzer") ...
PySpark: criar dict de dicts a partir do datafra
Tenho dados no seguinte formato, que são obtidos do Hive em um dataframe: date, stock, price 1388534400, GOOG, 50 1388534400, FB, 60 1388534400, MSFT, 55 1388620800, GOOG, 52 1388620800, FB, 61 1388620800, MSFT, 55Onde a data é a época da ...