Resultados da pesquisa a pedido "spark-dataframe"

3 a resposta

Os quadros de dados Spark convertem JSON aninhado em colunas separadas

Eu tenho um fluxo de JSONs com a seguinte estrutura que é convertida em dataframe { "a": 3936, "b": 123, "c": "34", "attributes": { "d": "146", "e": "12", "f": "23" } }O dataframe show functions resulta na seguinte ...

3 a resposta

Leia de uma tabela de colméia e escreva de volta usando spark sql

Estou lendo uma tabela do Hive usando o Spark SQL e atribuindo-a a um scala val val x = sqlContext.sql("select * from some_table")Então, estou fazendo algum processamento com o dataframe x e finalmente criando um dataframe y, que tem o esquema ...

1 a resposta

Como escrever Pyspark UDAF em várias colunas?

Eu tenho os seguintes dados em um dataframe pyspark chamadoend_stats_df: values start end cat1 cat2 10 1 2 A B 11 1 2 C B 12 1 2 D B 510 1 2 D C 550 1 2 C B 500 1 2 A B 80 1 3 A BE eu quero agregá-lo da seguinte maneira: Eu quero usar as ...

3 a resposta

Qual é eficiente, Dataframe ou RDD ou hiveql?

Eu sou novato no Apache Spark. Meu trabalho é ler dois arquivos CSV, selecionar algumas colunas específicas, mesclar, agregar e gravar o resultado em um único arquivo CSV. Por exemplo, CSV1name,age,deparment_id ...

2 a resposta

Como passar várias instruções no Spark SQL HiveContext

Por exemplo, tenho algumas instruções Hive HQL que quero passar para o Spark SQL: set parquet.compression=SNAPPY; create table MY_TABLE stored as parquet as select * from ANOTHER_TABLE; select * from MY_TABLE limit 5;O seguinte ...

1 a resposta

Contar o número de linhas duplicadas no SPARKSQL

Eu tenho requisito onde eu preciso contar o número de linhas duplicadas nas tabelas SparkSQL for Hive. from pyspark import SparkContext, SparkConf from pyspark.sql import HiveContext from pyspark.sql.types import * from pyspark.sql import Row ...

5 a resposta

Como importar vários arquivos CSV em uma única carga?

Considere que eu tenho um esquema definido para carregar 10 arquivos csv em uma pasta. Existe uma maneira de carregar tabelas automaticamente usando o Spark SQL. Sei que isso pode ser realizado usando um quadro de dados individual para cada ...

1 a resposta

Problemas com a função Rodada Pyspark

Tendo problemas para obter a função round em pyspar, k para funcionar - eu tenho o bloco de código abaixo, onde estou tentando arredondar onew_bid coluna com 2 casas decimais e renomeie a coluna comobid depois - ...

2 a resposta

Como renomear o arquivo de saída do quadro de dados spark na AWS no spark SCALA

Estou salvando minha saída do quadro de dados spark como arquivo csv no scala com partições. É assim que eu faço issozepelim. val sqlContext = new org.apache.spark.sql.SQLContext(sc) import sqlContext.implicits._ import org.apache.spark.{ ...

1 a resposta

junte dinamicamente dois quadros de dados spark-scala em várias colunas sem condições de junção codificadas

Eu gostaria de juntar dois quadros de dados spark-scala em várias colunas dinamicamente. Eu evitaria a comparação do nome da coluna de codificação codificada, conforme mostrado nas declarações a seguir; val joinRes = df1.join(df2, df1("col1") == ...