Resultados da pesquisa a pedido "apache-spark-sql"
Os quadros de dados Spark convertem JSON aninhado em colunas separadas
Eu tenho um fluxo de JSONs com a seguinte estrutura que é convertida em dataframe { "a": 3936, "b": 123, "c": "34", "attributes": { "d": "146", "e": "12", "f": "23" } }O dataframe show functions resulta na seguinte ...
OUTER JOIN em 2 DATA FRAMES: Spark Scala SqlContext
Estou recebendo erro ao fazer junções externas em 2 quadros de dados. Estou tentando obter o percentil. val sqlContext = new org.apache.spark.sql.SQLContext(sc) val df = sqlContext.jsonFile("temp.txt") val res = ...
Erro Spark: zero argumento esperado para a construção de ClassDict (para numpy.core.multiarray._reconstruct)
Eu tenho um dataframe no Spark no qual uma das colunas contém uma matriz. Agora, escrevi um UDF separado que converte a matriz em outra matriz com valores distintos apenas nela. Veja o exemplo abaixo: Ex:[24,23,27,23]deve ser convertido para[24, ...
Spark: operação aleatória levando a uma longa pausa no GC
Estou correndoSpark 2 e estou tentando embaralhar cerca de 5 terabytes de json. Estou tendo uma pausa muito longa na coleta de lixo durante o embaralhamento de umDataset: val operations = ...
O que é uma maneira otimizada de juntar tabelas grandes no Spark SQL
Preciso ingressar em tabelas usando o Spark SQL ou a API Dataframe. Precisa saber qual seria a maneira otimizada de alcançá-lo. O cenário é: Todos os dados estão presentes no Hive no formato ORC (Base Dataframe e arquivos de referência).Preciso ...
Renomear coluna dinâmica e agregada no PySpark Dataframe
Com um quadro de dados da seguinte maneira: from pyspark.sql.functions import avg, first rdd = sc.parallelize( [ (0, "A", 223,"201603", "PORT"), (0, "A", 22,"201602", "PORT"), (0, "A", 422,"201601", "DOCK"), (1,"B", 3213,"201602", "DOCK"), ...
Por que o SparkSession executa duas vezes para uma ação?
Atualizei recentemente para o Spark 2.0 e estou vendo um comportamento estranho ao tentar criar um conjunto de dados simples a partir de seqüências de caracteres JSON. Aqui está um caso de teste simples: SparkSession spark ...
Como converter coluna de matrizes de strings em strings?
Eu tenho uma coluna, que é do tipoarray < string > em mesas de faísca. Estou usando o SQL para consultar essas tabelas spark. Eu queria converter oarray < string > para dentrostring. Quando usada a sintaxe abaixo: select cast(rate_plan_code as ...
Como conectar o HBase e o Spark usando Python?
Eu tenho uma tarefa paralela embaraçosamente para a qual eu uso o Spark para distribuir os cálculos. Esses cálculos estão em Python, e eu uso o PySpark para ler e pré-processar os dados. Os dados de entrada para minha tarefa são armazenados no ...
Leia de uma tabela de colméia e escreva de volta usando spark sql
Estou lendo uma tabela do Hive usando o Spark SQL e atribuindo-a a um scala val val x = sqlContext.sql("select * from some_table")Então, estou fazendo algum processamento com o dataframe x e finalmente criando um dataframe y, que tem o esquema ...