Resultados da pesquisa a pedido "apache-spark-sql"
Obtenha um java.lang.LinkageError: ClassCastException ao usar spark sql hivesql no fio
Este é o driver que eu carrego no yarn-cluster: package com.baidu.spark.forhivetest import org.apache.spark.sql._ import org.apache.spark.sql.types._ import org.apache.spark.sql.hive._ import org.apache.spark.SparkContext object ForTest { def ...
Alterar o prefixo do nome do arquivo de saída para DataFrame.write ()
Os arquivos de saída gerados pelo método Spark SQL DataFrame.write () começam com o prefixo do nome da base "part". por exemplo. DataFrame sample_07 = hiveContext.table("sample_07"); sample_07.write().parquet("sample_07_parquet");Resulta ...
Usando funções de janelas no Spark
Estou tentando usar rowNumber nos quadros de dados do Spark. Minhas consultas estão funcionando conforme o esperado no shell Spark. Mas quando eu escrevê-los no eclipse e compilar um jar, estou enfrentando um erro 16/03/23 05:52:43 ERROR ...
Execução de consulta SQL do Spark no Hive
Eu sou novo no Spark SQL, mas ciente da estrutura de execução de consultas da seção. Gostaria de entender como o spark executa consultas sql (descrição técnica)? Se eu atirar abaixo do comando val sqlContext = new ...
Como transpor o quadro de dados no Spark 1.5 (nenhum operador de pivô disponível)?
Eu quero transpor a tabela a seguir usando spark scala sem função Pivot Estou usando o Spark 1.5.1 e a função Pivot não oferece suporte no 1.5.1. Sugira um método adequado para transpor a tabela a seguir: Customer Day Sales 1 Mon 12 1 Tue 10 1 ...
Filtrando linhas com base nos valores das colunas no spark dataframe scala
Eu tenho um quadro de dados (spark): id value 3 0 3 1 3 0 4 1 4 0 4 0Eu quero criar um novo quadro de dados: 3 0 3 1 4 1É necessário remover todas as linhas após 1 (valor) para cada id. Tentei com as funções de janela no spark dateframe ...
Encontre o mínimo para um registro de data e hora através do grupo Spark
Quando tento agrupar meu quadro de dados em uma coluna, tento encontrar o mínimo para cada agrupamentogroupbyDatafram.min('timestampCol') parece que não posso fazê-lo em colunas não numéricas. Então, como posso filtrar adequadamente a data mínima ...
Como selecionar um subconjunto de campos de uma coluna da matriz no Spark?
Digamos que eu tenha um DataFrame da seguinte maneira: case class SubClass(id:String, size:Int,useless:String) case class MotherClass(subClasss: Array[SubClass]) val df = sqlContext.createDataFrame(List( ...
API do conjunto de dados Spark - ingressar
Estou tentando usar o SparkConjunto de dados [https://databricks.com/blog/2016/01/04/introducing-spark-datasets.html]API, mas estou tendo alguns problemas ao fazer uma associação simples. Digamos que eu tenho dois conjuntos de dados com ...
Função de Coluna Personalizada Spark Build, função definida pelo usuário
Estou usando o Scala e quero criar minha própria função DataFrame. Por exemplo, quero tratar uma coluna como uma matriz, iterar por cada elemento e fazer um cálculo. Para começar, estou tentando implementar meu próprio método getMax. Portanto, ...