Resultados da pesquisa a pedido "spark-dataframe"
remover colunas NULL no Spark SQL
Como remover colunas que contêm apenas valores nulos de uma tabela? Suponha que eu tenha uma mesa - SnapshotDate CreationDate Country Region CloseDate Probability BookingAmount RevenueAmount SnapshotDate1 CreationDate1 CloseDate1 null null null ...
Preenchimento em um Dataframe Pyspark
Eu tenho um quadro de dados Pyspark (Dataframe original) com dados abaixo (todas as colunas têmcordatipo de dados): id Value 1 103 2 1504 3 1Preciso criar um novodataframe modificadocompreenchimentonovalorcoluna, para que o comprimento dessa ...
Altere o carimbo de data e hora para o formato UTC no Pyspark
Eu tenho um quadro de dados de entrada (ip_df), os dados desse quadro de dados são os seguintes: id timestamp_value 1 2017-08-01T14:30:00+05:30 2 2017-08-01T14:30:00+06:30 3 2017-08-01T14:30:00+07:30Preciso criar um novo quadro de dados (op_df), ...
Spark Dataframe - Função de janelas - Lag & Lead para inserção e atualização de saída
Preciso executar a operação abaixo em quadros de dados usando a função Windowing Lag and Lead. Para cada chave, preciso executar a inserção e atualização abaixo na saída final Inserir condição: 1. Por padrão, LAYER_NO = 0, precisa ser gravado ...
PySpark - obtém o número da linha para cada linha em um grupo
Usando o pyspark, eu gostaria de poder agrupar um quadro de dados spark, classificar o grupo e fornecer um número de linha. assim Group Date A 2000 A 2002 A 2007 B 1999 B 2015Se tornaria Group Date row_num A 2000 0 A 2002 1 A 2007 2 B 1999 0 B ...
Como converter RDD [GenericRecord] em dataframe no scala?
Recebo tweets do tópico kafka com o Avro (serializador e desserializador). Então eu crio um consumidor de faísca que extrai tweets no Dstream do RDD [GenericRecord]. Agora eu quero converter cada rdd em um dataframe para analisar esses tweets via ...
Dataframe Spark: Gere uma matriz de tupla a partir de um tipo de mapa
Minha fonte downstream não suporta um tipo de mapa e minha fonte suporta e, como tal, envia isso. Eu preciso converter este mapa em uma matriz de struct (tupla). O Scala suporta Map.toArray, que cria uma matriz de tupla para você, que parece ser ...
Como createOrReplaceTempView funciona no Spark?
Eu sou novo no Spark e Spark SQL. ComocreateOrReplaceTempView trabalhar no Spark? Se registrarmos umRDD de objetos como uma tabela irá acender manter todos os dados na memória?
Como resolver o AnalysisException: atributo (s) resolvido (s) no Spark
val rdd = sc.parallelize(Seq(("vskp", Array(2.0, 1.0, 2.1, 5.4)),("hyd",Array(1.5, 0.5, 0.9, 3.7)),("hyd", Array(1.5, 0.5, 0.9, 3.2)),("tvm", Array(8.0, 2.9, 9.1, 2.5)))) val df1= rdd.toDF("id", "vals") val rdd1 = ...
Como comparar dois quadros de dados e colunas de impressão diferentes no scala
Temos dois quadros de dados aqui: o quadro de dados esperado: +------+---------+--------+----------+-------+--------+ |emp_id| emp_city|emp_name| emp_phone|emp_sal|emp_site| +------+---------+--------+----------+-------+--------+ | 3| ...