Resultados da pesquisa a pedido "spark-dataframe"
Os quadros de dados Spark convertem JSON aninhado em colunas separadas
Eu tenho um fluxo de JSONs com a seguinte estrutura que é convertida em dataframe { "a": 3936, "b": 123, "c": "34", "attributes": { "d": "146", "e": "12", "f": "23" } }O dataframe show functions resulta na seguinte ...
Leia de uma tabela de colméia e escreva de volta usando spark sql
Estou lendo uma tabela do Hive usando o Spark SQL e atribuindo-a a um scala val val x = sqlContext.sql("select * from some_table")Então, estou fazendo algum processamento com o dataframe x e finalmente criando um dataframe y, que tem o esquema ...
Como escrever Pyspark UDAF em várias colunas?
Eu tenho os seguintes dados em um dataframe pyspark chamadoend_stats_df: values start end cat1 cat2 10 1 2 A B 11 1 2 C B 12 1 2 D B 510 1 2 D C 550 1 2 C B 500 1 2 A B 80 1 3 A BE eu quero agregá-lo da seguinte maneira: Eu quero usar as ...
Qual é eficiente, Dataframe ou RDD ou hiveql?
Eu sou novato no Apache Spark. Meu trabalho é ler dois arquivos CSV, selecionar algumas colunas específicas, mesclar, agregar e gravar o resultado em um único arquivo CSV. Por exemplo, CSV1name,age,deparment_id ...
Como passar várias instruções no Spark SQL HiveContext
Por exemplo, tenho algumas instruções Hive HQL que quero passar para o Spark SQL: set parquet.compression=SNAPPY; create table MY_TABLE stored as parquet as select * from ANOTHER_TABLE; select * from MY_TABLE limit 5;O seguinte ...
Contar o número de linhas duplicadas no SPARKSQL
Eu tenho requisito onde eu preciso contar o número de linhas duplicadas nas tabelas SparkSQL for Hive. from pyspark import SparkContext, SparkConf from pyspark.sql import HiveContext from pyspark.sql.types import * from pyspark.sql import Row ...
Como importar vários arquivos CSV em uma única carga?
Considere que eu tenho um esquema definido para carregar 10 arquivos csv em uma pasta. Existe uma maneira de carregar tabelas automaticamente usando o Spark SQL. Sei que isso pode ser realizado usando um quadro de dados individual para cada ...
Problemas com a função Rodada Pyspark
Tendo problemas para obter a função round em pyspar, k para funcionar - eu tenho o bloco de código abaixo, onde estou tentando arredondar onew_bid coluna com 2 casas decimais e renomeie a coluna comobid depois - ...
Como renomear o arquivo de saída do quadro de dados spark na AWS no spark SCALA
Estou salvando minha saída do quadro de dados spark como arquivo csv no scala com partições. É assim que eu faço issozepelim. val sqlContext = new org.apache.spark.sql.SQLContext(sc) import sqlContext.implicits._ import org.apache.spark.{ ...
junte dinamicamente dois quadros de dados spark-scala em várias colunas sem condições de junção codificadas
Eu gostaria de juntar dois quadros de dados spark-scala em várias colunas dinamicamente. Eu evitaria a comparação do nome da coluna de codificação codificada, conforme mostrado nas declarações a seguir; val joinRes = df1.join(df2, df1("col1") == ...