Resultados da pesquisa a pedido "apache-spark-sql"

1 a resposta

Aumento da memória física para um aplicativo Spark no YARN

Estou executando um aplicativo Spark no YARN com dois executores com Xms / Xmx como 32 GB e spark.yarn.excutor.memoryOverhead como 6 GB. Estou vendo que a memória física do aplicativo está sempre aumentando e finalmente é eliminada pelo ...

2 a resposta

Consulta do Spark em execução muito lenta

Eu tenho um cluster na AWS com 2 escravos e 1 mestre. Todas as instâncias são do tipo m1.large. Estou executando o spark versão 1.4. Estou comparando o desempenho da faísca em dados de 4 milhões provenientes do desvio para o vermelho. Disparei ...

2 a resposta

SPARK: falha: `` união '' esperada, mas `('encontrada

Eu tenho um dataframe chamado df com a coluna employee_id. Estou fazendo: df.registerTempTable("d_f") val query = """SELECT *, ROW_NUMBER() OVER (ORDER BY employee_id) row_number FROM d_f""" val result = Spark.getSqlContext().sql(query)Mas ...

1 a resposta

Calcular o desvio padrão de dados agrupados em um Spark DataFrame

Eu tenho logs de usuário que tirei de um csv e converti em um DataFrame para aproveitar os recursos de consulta do SparkSQL. Um único usuário criará inúmeras entradas por hora e eu gostaria de reunir algumas informações estatísticas básicas para ...

1 a resposta

Grupo de quadros de dados do Spark

Eu estou tentando fazer alguma análise sobre conjuntos. Eu tenho um conjunto de dados de exemplo que se parece com isso: orders.json {"items":[1,2,3,4,5]} {"items":[1,2,5]} {"items":[1,3,5]} {"items":[3,4,5]}Tudo o que existe é um único campo ...

7 a resposta

Como exportar dados do Spark SQL para CSV

Este comando funciona com o HiveQL: insert overwrite directory '/data/home.csv' select * from testtable;Mas com o Spark SQL, estou recebendo um erro com umorg.apache.spark.sql.hive.HiveQl rastreamento de pilha: java.lang.RuntimeException: ...

3 a resposta

Spark: gravando DataFrame como JSON compactado

Apache Spark'sDataFrameReader.json() pode lidar com arquivos JSONlines compactados automaticamente, mas não parece haver uma maneira de obterDataFrameWriter.json() para gravar arquivos JSONlines compactados. A E / S de rede extra é muito cara na ...

3 a resposta

Filtrando um Dataframe Spark com Base na Data

Eu tenho um quadro de dados de date, string, stringQuero selecionar datas antes de um determinado período. Eu tentei o seguinte sem sorte data.filter(data("date") < new java.sql.Date(format.parse("2015-03-14").getTime))Estou recebendo um ...

5 a resposta

Como conectar-se a um metastore Hive programaticamente no SparkSQL?

Estou usando o HiveContext com SparkSQL e estou tentando conectar-me a um metastore remoto do Hive, a única maneira de definir o metastore do hive é através da inclusão do hive-site.xml no caminho de classe (ou copiando-o para / etc / spark / ...

2 a resposta

Spark SQL - String de Consulta de Escape

Não acredito que estou perguntando isso, mas ... COMO ESCAPAR UMA QUERY STRING DO SQL NO SPARK SQL USANDO SCALA? Eu cansei de tudo e procurei em todos os lugares. Eu pensei que a biblioteca apache commons faria isso, mas sem sorte: import ...