Resultados da pesquisa a pedido "apache-spark-sql"

1 a resposta

PySpark, importando esquema através do arquivo JSON

tbschema.json se parece com isso: [{"TICKET":"integer","TRANFERRED":"string","ACCOUNT":"STRING"}]Carrego-o usando o seguinte código >>> df2 = sqlContext.jsonFile("tbschema.json") >>> ...

1 a resposta

Como definir e usar uma função agregada definida pelo usuário no Spark SQL?

Eu sei como escrever um UDF no Spark SQL: def belowThreshold(power: Int): Boolean = { return power < -40 } sqlContext.udf.register("belowThreshold", belowThreshold _)Posso fazer algo semelhante para definir uma função agregada? Como isso é ...

1 a resposta

Como ler e escrever várias tabelas em paralelo no Spark?

No meu aplicativo Spark, estou tentando ler várias tabelas do RDBMS, fazendo algum processamento de dados e depois gravando várias tabelas em outro RDBMS da seguinte maneira (no Scala): val reading1 = sqlContext.load("jdbc", Map("url" -> myurl1, ...

2 a resposta

Solte o quadro de dados spark do cache

Estou usando o Spark 1.3.0 com python api. Ao transformar grandes quadros de dados, eu armazeno em cache muitos DFs para uma execução mais rápida; df1.cache() df2.cache()Depois que o uso de determinado dataframe termina e não é mais necessário, ...

4 a resposta

como alterar uma coluna Dataframe do tipo String para Double type no pyspark

Eu tenho um quadro de dados com coluna como String. Eu queria mudar o tipo de coluna para Double type no PySpark. A seguir está o caminho, eu fiz: toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf ...

4 a resposta

Qual deve ser o valor ideal para spark.sql.shuffle.partitions ou como aumentamos as partições ao usar o Spark SQL?

Oi, eu estou usando Spark SQL realmentehiveContext.sql() que usa o grupo por consultas e estou correndo paraOOM problemas. Então, pensando em aumentar o valor despark.sql.shuffle.partitions de 200 padrão para 1000, mas não está ajudando. ...

3 a resposta

Spark e SparkSQL: Como imitar a função de janela?

DescriçãoDado um quadro de dadosdf id | date --------------- 1 | 2015-09-01 2 | 2015-09-01 1 | 2015-09-03 1 | 2015-09-04 2 | 2015-09-04Eu quero criar um contador ou índice em execução, agrupados pelo mesmo id eclassificados por data nesse ...

3 a resposta

Remover tabelas temporárias do Apache SQL Spark

eu tenhoregistertemptable noApache Spark usandoZeppelin abaixo: val hvacText = sc.textFile("...") case class Hvac(date: String, time: String, targettemp: Integer, actualtemp: Integer, buildingID: String) val hvac = hvacText.map(s => ...

3 a resposta

SparkSQL: Como lidar com valores nulos na função definida pelo usuário?

Dada a Tabela 1 com uma coluna "x" do tipo String. Eu quero criar a Tabela 2 com uma coluna "y" que é uma representação inteira das seqüências de datas fornecidas em "x". Essencialé manternull valores na coluna "y". Tabela 1 (Dataframe ...

4 a resposta

Converter data de nascimento em idade na API Spark Dataframe

Parece simples, mas não consegui encontrar a resposta. Estou tentando converter uma coluna de data de nascimento no formato de data abaixo para o formato de data na API Spark Dataframe e depois calcular as idades correspondentes. Provavelmente ...