Resultados da pesquisa a pedido "spark-dataframe"

1 a resposta

Distância de cosseno da faísca entre linhas usando Dataframe

Preciso calcular uma distância de cosseno entre cada linha, mas não faço ideia de como fazê-lo usando os quadros de dados da API do Spark de maneira elegante. A idéia é calcular semelhanças para cada linha (itens) e obter as 10 ...

0 a resposta

Obtendo o erro "Falha ao obter uma instância do HMACSHA256" ao acessar o Azure CosmosDB

Estou tentando gravar o quadro de dados Spark no Azure CosmosDB e defini toda a configuração correta, mas obtendo o seguinte erro ao tentar gravar dados. My Build.sbt name := "MyApp" version := "1.0" scalaVersion := "2.10.7" ...

5 a resposta

Como criar o DataFrame a partir da lista de iteráveis do Scala?

Eu tenho o seguinte valor Scala: val values: List[Iterable[Any]] = Traces().evaluate(features).toListe eu quero convertê-lo em um DataFrame. Quando tento o seguinte: sqlContext.createDataFrame(values)Eu recebi este erro: error: overloaded ...

9 a resposta

Melhor maneira de obter o valor máximo em uma coluna de quadro de dados Spark

Estou tentando descobrir a melhor maneira de obter o maior valor em uma coluna de quadro de dados Spark. Considere o seguinte exemplo: df = spark.createDataFrame([(1., 4.), (2., 5.), (3., 6.)], ["A", "B"]) df.show() O que cria: +---+---+ | A| ...

1 a resposta

Grupo de Dataframe do Apache Spark por agg () para várias colunas

eu tenho umDataFrame com 3 colunas, ou seja,Id, First Name, Last Name Eu quero aplicarGroupBy com base emId e quer colecionarFirst Name, Last Name coluna como lista. Exemplo: - Eu tenho um DF como este +---+-------+--------+ |id |fName |lName ...

1 a resposta

Spark 2.2 Scala DataFrame selecione da matriz de strings, capturando erros

Eu sou novo no SparkSQL / Scala e estou lutando com algumas tarefas aparentemente simples. Estou tentando criar algum SQL dinâmico a partir de uma matriz de seqüência de caracteres Scala. Estou tentando redigitar algumas colunas no meu ...

4 a resposta

Spark Dataframe validando nomes de colunas para gravações em parquet (scala)

Estou processando eventos usando Dataframes convertidos de um fluxo de eventos JSON que, eventualmente, são gravados no formato Parquet. No entanto, alguns dos eventos JSON contêm espaços nas chaves que eu quero registrar e filtrar / descartar ...

1 a resposta

Como escrever Pyspark UDAF em várias colunas?

Eu tenho os seguintes dados em um dataframe pyspark chamadoend_stats_df: values start end cat1 cat2 10 1 2 A B 11 1 2 C B 12 1 2 D B 510 1 2 D C 550 1 2 C B 500 1 2 A B 80 1 3 A BE eu quero agregá-lo da seguinte maneira: Eu quero usar as ...

2 a resposta

Pyspark: matriz de elenco com estrutura aninhada para cadeia

Eu tenho o dataframe pyspark com uma coluna chamadaFiltros: "matriz>" Eu quero salvar meu dataframe no arquivo csv, para isso eu preciso converter a matriz para o tipo de seqüência de caracteres. Eu tentei lançá-lo:DF.Filters.tostring() ...

3 a resposta

Pyspark: preenchimento para frente com última observação para um DataFrame

Usando o Spark 1.5.1, Eu tenho tentado encaminhar preenchimentovalores nuloscom a última observação conhecida parauma colunado meu DataFrame. É possível começar com um valor nulo e, nesse caso, eu preencheria esse valor nulo com a primeira ...