Resultados da pesquisa a pedido "apache-spark-sql"

1 a resposta

Falha intermitente do Hive / Hadoop: Não é possível mover a origem para o destino

Existem alguns artigos sobre SOHive/Hadoop Erro "Não foi possível mover a origem". Muitos deles apontam para um problema de permissão. No entanto, no meu site, vi o mesmo erro, mas tenho certeza de que não está relacionado ao problema de ...

2 a resposta

Como saber qual consulta de contagem é a mais rápida?

Eu estive explorando otimizações de consulta nas versões recentes do Spark SQL 2.3.0-SNAPSHOT e notei diferentes planos físicos para consultas semanticamente idênticas. Vamos supor que eu precise contar o número de linhas no seguinte conjunto ...

4 a resposta

obter tipo de dados da coluna usando o pyspark

Estamos lendo dados do MongoDBCollection. Collection A coluna possui dois valores diferentes (por exemplo:(bson.Int64,int) (int,float) ) Estou tentando obter um tipo de dados usando o pyspark. Meu problema é que algumas colunas têm tipos de ...

2 a resposta

Como fazer o oposto de explodir no PySpark?

Digamos que eu tenho umDataFrame com uma coluna para usuários e outra coluna para as palavras que eles escreveram: Row(user='Bob', word='hello') Row(user='Bob', word='world') Row(user='Mary', word='Have') Row(user='Mary', word='a') ...

2 a resposta

Como agregar dados em intervalos (bucketize)?

Eu tenho uma mesa como +---------------+------+ |id | value| +---------------+------+ | 1|118.0| | 2|109.0| | 3|113.0| | 4| 82.0| | 5| 60.0| | 6|111.0| | 7|107.0| | 8| 84.0| | 9| 91.0| | 10|118.0| +---------------+------+ans gostaria de agregar ...

2 a resposta

Por que o formato ("kafka") falha com "Falha ao localizar a fonte de dados: kafka". (Mesmo com o uber-jar)?

Eu uso o HDP-2.6.3.0 com o pacote Spark2 2.2.0. Estou tentando escrever um consumidor Kafka, usando a API de fluxo estruturado, mas estou recebendo o seguinte erro após enviar o trabalho ao cluster: Exception in thread "main" ...

1 a resposta

Usando Spark UDFs com sequências struct

Dado um quadro de dados em que uma coluna é uma sequência de estruturas geradas pela seguinte sequência val df = spark .range(10) .map((i) => (i % 2, util.Random.nextInt(10), util.Random.nextInt(10))) .toDF("a","b","c") ...

1 a resposta

Como usar as funções collect_set e collect_list na agregação de janelas no Spark 1.6?

No Spark 1.6.0 / Scala, há uma oportunidade de obtercollect_list("colC") oucollect_set("colC").over(Window.partitionBy("colA").orderBy("colB")?

2 a resposta

Como criar o projeto Spark / Scala no IntelliJ IDEA (falha ao resolver dependências no build.sbt)?

Estou tentando criar e executar um projeto Scala / Spark no IntelliJ IDEA. Eu adicioneiorg.apache.spark:spark-sql_2.11:2.0.0 em bibliotecas globais e meubuild.sbt se parece abaixo. name := "test" version := "1.0" scalaVersion := "2.11.8" ...

1 a resposta

A associação automática não está funcionando conforme o esperado com a API DataFrame

Estou tentando obter os registros mais recentes de uma tabela usando a associação automática. Funciona usandospark-sql mas não está trabalhando usando faíscaDataFrame API. Alguém pode ajudar? Isso é um bug? Estou usando o Spark 2.2.0 no modo ...