Resultados da pesquisa a pedido "spark-dataframe"

1 a resposta

Spark 2.2 Scala DataFrame selecione da matriz de strings, capturando erros

Eu sou novo no SparkSQL / Scala e estou lutando com algumas tarefas aparentemente simples. Estou tentando criar algum SQL dinâmico a partir de uma matriz de seqüência de caracteres Scala. Estou tentando redigitar algumas colunas no meu ...

4 a resposta

Como converter RDD [GenericRecord] em dataframe no scala?

Recebo tweets do tópico kafka com o Avro (serializador e desserializador). Então eu crio um consumidor de faísca que extrai tweets no Dstream do RDD [GenericRecord]. Agora eu quero converter cada rdd em um dataframe para analisar esses tweets via ...

1 a resposta

Problemas com a função Rodada Pyspark

Tendo problemas para obter a função round em pyspar, k para funcionar - eu tenho o bloco de código abaixo, onde estou tentando arredondar onew_bid coluna com 2 casas decimais e renomeie a coluna comobid depois - ...

2 a resposta

Mapeando json para a classe case com Spark (espaços no nome do campo)

Eu estou tentando ler um arquivo json com a faíscaDataset API, o problema é que esse json contém espaços em alguns dos nomes de campo. Esta seria uma linha json {"Field Name" : "value"}Minha classe de caso precisa ser assim case class ...

2 a resposta

Como enviar um Dataframe Spark para a pesquisa elástica (Pyspark)

Iniciante ES Pergunta aqui Qual é o fluxo de trabalho ou as etapas para enviar um Spark Dataframe para a Elastic Search? A partir de pesquisas, acredito que preciso usar ospark.newAPIHadoopFile ...

2 a resposta

Como renomear o arquivo de saída do quadro de dados spark na AWS no spark SCALA

Estou salvando minha saída do quadro de dados spark como arquivo csv no scala com partições. É assim que eu faço issozepelim. val sqlContext = new org.apache.spark.sql.SQLContext(sc) import sqlContext.implicits._ import org.apache.spark.{ ...

1 a resposta

Distância de cosseno da faísca entre linhas usando Dataframe

Preciso calcular uma distância de cosseno entre cada linha, mas não faço ideia de como fazê-lo usando os quadros de dados da API do Spark de maneira elegante. A idéia é calcular semelhanças para cada linha (itens) e obter as 10 ...

2 a resposta

como obter meses, anos de diferença entre duas datas em sparksql

Estou recebendo o erro: org.apache.spark.sql.analysisexception: cannot resolve 'year'Meus dados de entrada: 1,2012-07-21,2014-04-09Meu código: val sqlContext = new org.apache.spark.sql.SQLContext(sc) import sqlContext.implicits._ import ...

2 a resposta

Dataframe do Spark: Pivot e Grupo com base em colunas

Eu tenho o quadro de dados de entrada abaixo, com ID, aplicativo e cliente Dataframe de entrada +--------------------+-----+---------+ | id|app |customer | +--------------------+-----+---------+ |id1 | fw| WM | |id1 | fw| CS | |id2 | fw| CS | ...

1 a resposta

Como escrever Pyspark UDAF em várias colunas?

Eu tenho os seguintes dados em um dataframe pyspark chamadoend_stats_df: values start end cat1 cat2 10 1 2 A B 11 1 2 C B 12 1 2 D B 510 1 2 D C 550 1 2 C B 500 1 2 A B 80 1 3 A BE eu quero agregá-lo da seguinte maneira: Eu quero usar as ...