Resultados da pesquisa a pedido "spark-dataframe"

2 a resposta

remover colunas NULL no Spark SQL

Como remover colunas que contêm apenas valores nulos de uma tabela? Suponha que eu tenha uma mesa - SnapshotDate CreationDate Country Region CloseDate Probability BookingAmount RevenueAmount SnapshotDate1 CreationDate1 CloseDate1 null null null ...

2 a resposta

Preenchimento em um Dataframe Pyspark

Eu tenho um quadro de dados Pyspark (Dataframe original) com dados abaixo (todas as colunas têmcordatipo de dados): id Value 1 103 2 1504 3 1Preciso criar um novodataframe modificadocompreenchimentonovalorcoluna, para que o comprimento dessa ...

2 a resposta

Altere o carimbo de data e hora para o formato UTC no Pyspark

Eu tenho um quadro de dados de entrada (ip_df), os dados desse quadro de dados são os seguintes: id timestamp_value 1 2017-08-01T14:30:00+05:30 2 2017-08-01T14:30:00+06:30 3 2017-08-01T14:30:00+07:30Preciso criar um novo quadro de dados (op_df), ...

1 a resposta

Spark Dataframe - Função de janelas - Lag & Lead para inserção e atualização de saída

Preciso executar a operação abaixo em quadros de dados usando a função Windowing Lag and Lead. Para cada chave, preciso executar a inserção e atualização abaixo na saída final Inserir condição: 1. Por padrão, LAYER_NO = 0, precisa ser gravado ...

2 a resposta

PySpark - obtém o número da linha para cada linha em um grupo

Usando o pyspark, eu gostaria de poder agrupar um quadro de dados spark, classificar o grupo e fornecer um número de linha. assim Group Date A 2000 A 2002 A 2007 B 1999 B 2015Se tornaria Group Date row_num A 2000 0 A 2002 1 A 2007 2 B 1999 0 B ...

4 a resposta

Como converter RDD [GenericRecord] em dataframe no scala?

Recebo tweets do tópico kafka com o Avro (serializador e desserializador). Então eu crio um consumidor de faísca que extrai tweets no Dstream do RDD [GenericRecord]. Agora eu quero converter cada rdd em um dataframe para analisar esses tweets via ...

1 a resposta

Dataframe Spark: Gere uma matriz de tupla a partir de um tipo de mapa

Minha fonte downstream não suporta um tipo de mapa e minha fonte suporta e, como tal, envia isso. Eu preciso converter este mapa em uma matriz de struct (tupla). O Scala suporta Map.toArray, que cria uma matriz de tupla para você, que parece ser ...

3 a resposta

Como createOrReplaceTempView funciona no Spark?

Eu sou novo no Spark e Spark SQL. ComocreateOrReplaceTempView trabalhar no Spark? Se registrarmos umRDD de objetos como uma tabela irá acender manter todos os dados na memória?

5 a resposta

Como resolver o AnalysisException: atributo (s) resolvido (s) no Spark

val rdd = sc.parallelize(Seq(("vskp", Array(2.0, 1.0, 2.1, 5.4)),("hyd",Array(1.5, 0.5, 0.9, 3.7)),("hyd", Array(1.5, 0.5, 0.9, 3.2)),("tvm", Array(8.0, 2.9, 9.1, 2.5)))) val df1= rdd.toDF("id", "vals") val rdd1 = ...

1 a resposta

Como comparar dois quadros de dados e colunas de impressão diferentes no scala

Temos dois quadros de dados aqui: o quadro de dados esperado: +------+---------+--------+----------+-------+--------+ |emp_id| emp_city|emp_name| emp_phone|emp_sal|emp_site| +------+---------+--------+----------+-------+--------+ | 3| ...