Resultados da pesquisa a pedido "apache-spark-sql"
PySpark, importando esquema através do arquivo JSON
tbschema.json se parece com isso: [{"TICKET":"integer","TRANFERRED":"string","ACCOUNT":"STRING"}]Carrego-o usando o seguinte código >>> df2 = sqlContext.jsonFile("tbschema.json") >>> ...
Como definir e usar uma função agregada definida pelo usuário no Spark SQL?
Eu sei como escrever um UDF no Spark SQL: def belowThreshold(power: Int): Boolean = { return power < -40 } sqlContext.udf.register("belowThreshold", belowThreshold _)Posso fazer algo semelhante para definir uma função agregada? Como isso é ...
Como ler e escrever várias tabelas em paralelo no Spark?
No meu aplicativo Spark, estou tentando ler várias tabelas do RDBMS, fazendo algum processamento de dados e depois gravando várias tabelas em outro RDBMS da seguinte maneira (no Scala): val reading1 = sqlContext.load("jdbc", Map("url" -> myurl1, ...
Solte o quadro de dados spark do cache
Estou usando o Spark 1.3.0 com python api. Ao transformar grandes quadros de dados, eu armazeno em cache muitos DFs para uma execução mais rápida; df1.cache() df2.cache()Depois que o uso de determinado dataframe termina e não é mais necessário, ...
como alterar uma coluna Dataframe do tipo String para Double type no pyspark
Eu tenho um quadro de dados com coluna como String. Eu queria mudar o tipo de coluna para Double type no PySpark. A seguir está o caminho, eu fiz: toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf ...
Qual deve ser o valor ideal para spark.sql.shuffle.partitions ou como aumentamos as partições ao usar o Spark SQL?
Oi, eu estou usando Spark SQL realmentehiveContext.sql() que usa o grupo por consultas e estou correndo paraOOM problemas. Então, pensando em aumentar o valor despark.sql.shuffle.partitions de 200 padrão para 1000, mas não está ajudando. ...
Spark e SparkSQL: Como imitar a função de janela?
DescriçãoDado um quadro de dadosdf id | date --------------- 1 | 2015-09-01 2 | 2015-09-01 1 | 2015-09-03 1 | 2015-09-04 2 | 2015-09-04Eu quero criar um contador ou índice em execução, agrupados pelo mesmo id eclassificados por data nesse ...
Remover tabelas temporárias do Apache SQL Spark
eu tenhoregistertemptable noApache Spark usandoZeppelin abaixo: val hvacText = sc.textFile("...") case class Hvac(date: String, time: String, targettemp: Integer, actualtemp: Integer, buildingID: String) val hvac = hvacText.map(s => ...
SparkSQL: Como lidar com valores nulos na função definida pelo usuário?
Dada a Tabela 1 com uma coluna "x" do tipo String. Eu quero criar a Tabela 2 com uma coluna "y" que é uma representação inteira das seqüências de datas fornecidas em "x". Essencialé manternull valores na coluna "y". Tabela 1 (Dataframe ...
Converter data de nascimento em idade na API Spark Dataframe
Parece simples, mas não consegui encontrar a resposta. Estou tentando converter uma coluna de data de nascimento no formato de data abaixo para o formato de data na API Spark Dataframe e depois calcular as idades correspondentes. Provavelmente ...