Resultados da pesquisa a pedido "apache-spark-sql"

1 a resposta

Filtro de faísca DataFrame comparando lista

Estou usando o Python no Spark. Eu quero filtrar linhas onde um campo especificado é igual a uma lista inteira. df.show() +--------------------+---------------+ | _id| a1| +--------------------+---------------+ |[596d799cbc6ec95d...|[1.0, 2.0, ...

2 a resposta

criar um dataframe spark a partir de um arquivo json aninhado no scala [duplicado]

Esta pergunta já tem uma resposta aqui: Como acessar subentidades no arquivo JSON? [/questions/44814926/how-to-access-sub-entities-in-json-file] 1 respostaEu tenho um arquivo json que se parece com isso { "group" : {}, "lang" : [ [ 1, "scala", ...

1 a resposta

DataFrame do Pandas para o Spark, manipulando conversões de NaN para nulo real?

Eu quero converter o quadro de dados de pandas em faísca e estou usandospark_context.createDataFrame() método para criar o quadro de dados. Também estou especificando o esquema nocreateDataFrame() método. O que eu quero saber é como lidar com ...

1 a resposta

Problemas com a função Rodada Pyspark

Tendo problemas para obter a função round em pyspar, k para funcionar - eu tenho o bloco de código abaixo, onde estou tentando arredondar onew_bid coluna com 2 casas decimais e renomeie a coluna comobid depois - ...

1 a resposta

Spark - Janela com recursão? - Propagar valores condicionalmente pelas linhas

Eu tenho o seguinte quadro de dados mostrando a receita das compras. +-------+--------+-------+ |user_id|visit_id|revenue| +-------+--------+-------+ | 1| 1| 0| | 1| 2| 0| | 1| 3| 0| | 1| 4| 100| | 1| 5| 0| | 1| 6| 0| | 1| 7| 200| | 1| 8| 0| | ...

2 a resposta

função pyspark approxQuantile

Eu tenho dataframe com essas colunasid, price, timestamp. Gostaria de encontrar o valor mediano agrupado porid. Estou usando esse código para encontrá-lo, mas está me dando esse erro. from pyspark.sql import DataFrameStatFunctions as statFunc ...

1 a resposta

Como eliminar duplicatas usando condições [duplicado]

Esta pergunta já tem uma resposta aqui: Como selecionar a primeira linha de cada grupo? [/questions/33878370/how-to-select-the-first-row-of-each-group] 8 respostasEu tenho o seguinte DataFramedf: Como posso excluir duplicatas, mantendo o valor ...

1 a resposta

Como agrupar por elemento comum na matriz?

Estou tentando encontrar a solução no spark para agrupar dados com um elemento comum em uma matriz. key value [k1,k2] v1 [k2] v2 [k3,k2] v3 [k4] v4Se algum elemento coincidir com a chave, temos que atribuir o mesmo ID de grupo a esse elemento ...

2 a resposta

Por que a associação não é possível após o operador show?

O código a seguir funciona bem até eu adicionarshow depois deagg. Porque éshow não é possivel? val tempTableB = tableB.groupBy("idB") .agg(first("numB").as("numB")) //when I add a .show here, it doesn't work tableA.join(tempTableB, $"idA" === ...

2 a resposta

remover colunas NULL no Spark SQL

Como remover colunas que contêm apenas valores nulos de uma tabela? Suponha que eu tenha uma mesa - SnapshotDate CreationDate Country Region CloseDate Probability BookingAmount RevenueAmount SnapshotDate1 CreationDate1 CloseDate1 null null null ...