Resultados da pesquisa a pedido "apache-spark-sql"

1 a resposta

Obtenha um java.lang.LinkageError: ClassCastException ao usar spark sql hivesql no fio

Este é o driver que eu carrego no yarn-cluster: package com.baidu.spark.forhivetest import org.apache.spark.sql._ import org.apache.spark.sql.types._ import org.apache.spark.sql.hive._ import org.apache.spark.SparkContext object ForTest { def ...

2 a resposta

Alterar o prefixo do nome do arquivo de saída para DataFrame.write ()

Os arquivos de saída gerados pelo método Spark SQL DataFrame.write () começam com o prefixo do nome da base "part". por exemplo. DataFrame sample_07 = hiveContext.table("sample_07"); sample_07.write().parquet("sample_07_parquet");Resulta ...

2 a resposta

Usando funções de janelas no Spark

Estou tentando usar rowNumber nos quadros de dados do Spark. Minhas consultas estão funcionando conforme o esperado no shell Spark. Mas quando eu escrevê-los no eclipse e compilar um jar, estou enfrentando um erro 16/03/23 05:52:43 ERROR ...

1 a resposta

Execução de consulta SQL do Spark no Hive

Eu sou novo no Spark SQL, mas ciente da estrutura de execução de consultas da seção. Gostaria de entender como o spark executa consultas sql (descrição técnica)? Se eu atirar abaixo do comando val sqlContext = new ...

3 a resposta

Como transpor o quadro de dados no Spark 1.5 (nenhum operador de pivô disponível)?

Eu quero transpor a tabela a seguir usando spark scala sem função Pivot Estou usando o Spark 1.5.1 e a função Pivot não oferece suporte no 1.5.1. Sugira um método adequado para transpor a tabela a seguir: Customer Day Sales 1 Mon 12 1 Tue 10 1 ...

4 a resposta

Filtrando linhas com base nos valores das colunas no spark dataframe scala

Eu tenho um quadro de dados (spark): id value 3 0 3 1 3 0 4 1 4 0 4 0Eu quero criar um novo quadro de dados: 3 0 3 1 4 1É necessário remover todas as linhas após 1 (valor) para cada id. Tentei com as funções de janela no spark dateframe ...

1 a resposta

Encontre o mínimo para um registro de data e hora através do grupo Spark

Quando tento agrupar meu quadro de dados em uma coluna, tento encontrar o mínimo para cada agrupamentogroupbyDatafram.min('timestampCol') parece que não posso fazê-lo em colunas não numéricas. Então, como posso filtrar adequadamente a data mínima ...

1 a resposta

Como selecionar um subconjunto de campos de uma coluna da matriz no Spark?

Digamos que eu tenha um DataFrame da seguinte maneira: case class SubClass(id:String, size:Int,useless:String) case class MotherClass(subClasss: Array[SubClass]) val df = sqlContext.createDataFrame(List( ...

3 a resposta

API do conjunto de dados Spark - ingressar

Estou tentando usar o SparkConjunto de dados [https://databricks.com/blog/2016/01/04/introducing-spark-datasets.html]API, mas estou tendo alguns problemas ao fazer uma associação simples. Digamos que eu tenho dois conjuntos de dados com ...

2 a resposta

Função de Coluna Personalizada Spark Build, função definida pelo usuário

Estou usando o Scala e quero criar minha própria função DataFrame. Por exemplo, quero tratar uma coluna como uma matriz, iterar por cada elemento e fazer um cálculo. Para começar, estou tentando implementar meu próprio método getMax. Portanto, ...