Resultados da pesquisa a pedido "spark-dataframe"

Eu tenho um fluxo de JSONs com a seguinte estrutura que é convertida em dataframe { "a": 3936, "b": 123, "c": "34", "attributes": { "d": "146", "e": "12", "f": "23" } }O dataframe show functions resulta na seguinte ...

hadoop apache-spark apache-spark-sql scala

3 a resposta

Leia de uma tabela de colméia e escreva de volta usando spark sql

Estou lendo uma tabela do Hive usando o Spark SQL e atribuindo-a a um scala val val x = sqlContext.sql("select * from some_table")Então, estou fazendo algum processamento com o dataframe x e finalmente criando um dataframe y, que tem o esquema ...

apache-spark rdd pyspark

1 a resposta

Como escrever Pyspark UDAF em várias colunas?

Eu tenho os seguintes dados em um dataframe pyspark chamadoend_stats_df: values start end cat1 cat2 10 1 2 A B 11 1 2 C B 12 1 2 D B 510 1 2 D C 550 1 2 C B 500 1 2 A B 80 1 3 A BE eu quero agregá-lo da seguinte maneira: Eu quero usar as ...

apache-spark-sql apache-spark

3 a resposta

Qual é eficiente, Dataframe ou RDD ou hiveql?

Eu sou novato no Apache Spark. Meu trabalho é ler dois arquivos CSV, selecionar algumas colunas específicas, mesclar, agregar e gravar o resultado em um único arquivo CSV. Por exemplo, CSV1name,age,deparment_id ...

hiveql apache-spark

2 a resposta

Como passar várias instruções no Spark SQL HiveContext

Por exemplo, tenho algumas instruções Hive HQL que quero passar para o Spark SQL: set parquet.compression=SNAPPY; create table MY_TABLE stored as parquet as select * from ANOTHER_TABLE; select * from MY_TABLE limit 5;O seguinte ...

pyspark-sql pyspark apache-spark-sql

1 a resposta

Contar o número de linhas duplicadas no SPARKSQL

Eu tenho requisito onde eu preciso contar o número de linhas duplicadas nas tabelas SparkSQL for Hive. from pyspark import SparkContext, SparkConf from pyspark.sql import HiveContext from pyspark.sql.types import * from pyspark.sql import Row ...

apache-spark apache-spark-sql

5 a resposta

Como importar vários arquivos CSV em uma única carga?

Considere que eu tenho um esquema definido para carregar 10 arquivos csv em uma pasta. Existe uma maneira de carregar tabelas automaticamente usando o Spark SQL. Sei que isso pode ser realizado usando um quadro de dados individual para cada ...

apache-spark-sql pyspark-sql pyspark apache-spark

1 a resposta

Problemas com a função Rodada Pyspark

Tendo problemas para obter a função round em pyspar, k para funcionar - eu tenho o bloco de código abaixo, onde estou tentando arredondar onew_bid coluna com 2 casas decimais e renomeie a coluna comobid depois - ...

scala amazon-s3 apache-spark multipleoutputs

2 a resposta

Como renomear o arquivo de saída do quadro de dados spark na AWS no spark SCALA

Estou salvando minha saída do quadro de dados spark como arquivo csv no scala com partições. É assim que eu faço issozepelim. val sqlContext = new org.apache.spark.sql.SQLContext(sc) import sqlContext.implicits._ import org.apache.spark.{ ...

join scala multiple-columns

1 a resposta

junte dinamicamente dois quadros de dados spark-scala em várias colunas sem condições de junção codificadas

Eu gostaria de juntar dois quadros de dados spark-scala em várias colunas dinamicamente. Eu evitaria a comparação do nome da coluna de codificação codificada, conforme mostrado nas declarações a seguir; val joinRes = df1.join(df2, df1("col1") == ...

Página 1 do 12

12 3 4 5

Resultados da pesquisa a pedido "spark-dataframe"

Os quadros de dados Spark convertem JSON aninhado em colunas separadas

Leia de uma tabela de colméia e escreva de volta usando spark sql

Como escrever Pyspark UDAF em várias colunas?

Tags populares

Qual é eficiente, Dataframe ou RDD ou hiveql?

Como passar várias instruções no Spark SQL HiveContext

Contar o número de linhas duplicadas no SPARKSQL

Como importar vários arquivos CSV em uma única carga?

Problemas com a função Rodada Pyspark

Como renomear o arquivo de saída do quadro de dados spark na AWS no spark SCALA

junte dinamicamente dois quadros de dados spark-scala em várias colunas sem condições de junção codificadas

Você é muito ativo! É ótimo!

Resultados da pesquisa a pedido "spark-dataframe"

Tags populares