Resultados da pesquisa a pedido "apache-spark-sql"
Falha intermitente do Hive / Hadoop: Não é possível mover a origem para o destino
Existem alguns artigos sobre SOHive/Hadoop Erro "Não foi possível mover a origem". Muitos deles apontam para um problema de permissão. No entanto, no meu site, vi o mesmo erro, mas tenho certeza de que não está relacionado ao problema de ...
Como saber qual consulta de contagem é a mais rápida?
Eu estive explorando otimizações de consulta nas versões recentes do Spark SQL 2.3.0-SNAPSHOT e notei diferentes planos físicos para consultas semanticamente idênticas. Vamos supor que eu precise contar o número de linhas no seguinte conjunto ...
obter tipo de dados da coluna usando o pyspark
Estamos lendo dados do MongoDBCollection. Collection A coluna possui dois valores diferentes (por exemplo:(bson.Int64,int) (int,float) ) Estou tentando obter um tipo de dados usando o pyspark. Meu problema é que algumas colunas têm tipos de ...
Como fazer o oposto de explodir no PySpark?
Digamos que eu tenho umDataFrame com uma coluna para usuários e outra coluna para as palavras que eles escreveram: Row(user='Bob', word='hello') Row(user='Bob', word='world') Row(user='Mary', word='Have') Row(user='Mary', word='a') ...
Como agregar dados em intervalos (bucketize)?
Eu tenho uma mesa como +---------------+------+ |id | value| +---------------+------+ | 1|118.0| | 2|109.0| | 3|113.0| | 4| 82.0| | 5| 60.0| | 6|111.0| | 7|107.0| | 8| 84.0| | 9| 91.0| | 10|118.0| +---------------+------+ans gostaria de agregar ...
Por que o formato ("kafka") falha com "Falha ao localizar a fonte de dados: kafka". (Mesmo com o uber-jar)?
Eu uso o HDP-2.6.3.0 com o pacote Spark2 2.2.0. Estou tentando escrever um consumidor Kafka, usando a API de fluxo estruturado, mas estou recebendo o seguinte erro após enviar o trabalho ao cluster: Exception in thread "main" ...
Usando Spark UDFs com sequências struct
Dado um quadro de dados em que uma coluna é uma sequência de estruturas geradas pela seguinte sequência val df = spark .range(10) .map((i) => (i % 2, util.Random.nextInt(10), util.Random.nextInt(10))) .toDF("a","b","c") ...
Como usar as funções collect_set e collect_list na agregação de janelas no Spark 1.6?
No Spark 1.6.0 / Scala, há uma oportunidade de obtercollect_list("colC") oucollect_set("colC").over(Window.partitionBy("colA").orderBy("colB")?
Como criar o projeto Spark / Scala no IntelliJ IDEA (falha ao resolver dependências no build.sbt)?
Estou tentando criar e executar um projeto Scala / Spark no IntelliJ IDEA. Eu adicioneiorg.apache.spark:spark-sql_2.11:2.0.0 em bibliotecas globais e meubuild.sbt se parece abaixo. name := "test" version := "1.0" scalaVersion := "2.11.8" ...
A associação automática não está funcionando conforme o esperado com a API DataFrame
Estou tentando obter os registros mais recentes de uma tabela usando a associação automática. Funciona usandospark-sql mas não está trabalhando usando faíscaDataFrame API. Alguém pode ajudar? Isso é um bug? Estou usando o Spark 2.2.0 no modo ...