Resultados da pesquisa a pedido "apache-spark-sql"
Erro ao explodir uma coluna struct no Spark
Eu tenho um quadro de dados cujo esquema se parece com isso: event: struct (nullable = true) | | event_category: string (nullable = true) | | event_name: string (nullable = true) | | properties: struct (nullable = true) | | | ErrorCode: string ...
NullPointerException após extrair uma tabela Teradata com Scala / Spark
Preciso extrair uma tabela do Teradata (acesso somente leitura) para parquet com o Scala (2.11) / Spark (2.1.0). Estou construindo um quadro de dados que posso carregar com sucesso val df = ...
O Spark Strutured Streaming converte automaticamente o carimbo de data / hora para a hora local
Eu tenho meu carimbo de data e hora no UTC e ISO8601, mas usando o Streaming estruturado, ele é convertido automaticamente no horário local. Existe uma maneira de parar essa conversão? Eu gostaria de tê-lo no UTC. Estou lendo dados json do Kafka ...
Como usar o UDF para retornar várias colunas?
É possível criar um UDF que retornaria o conjunto de colunas? I.e. tendo um quadro de dados da seguinte maneira: | Feature1 | Feature2 | Feature 3 | | 1.3 | 3.4 | 4.5 |Agora eu gostaria de extrair um novo recurso, que pode ser descrito como um ...
Como usar o DataFrame withColumn e não alterar a partição?
Por alguma razão eu tenho que converterRDD paraDataFrame, então faça algo comDataFrame. Minha interface éRDDentão eu tenho que converterDataFrame paraRDD, E quando eu usodf.withcolumn, a partição muda para 1, então eu tenho querepartition ...
Filtro de várias condições no quadro de dados
Alguém pode me explicar por que estou obtendo resultados diferentes para essas duas expressões? Estou tentando filtrar entre 2 datas: df.filter("act_date <='2017-04-01'" and "act_date ...
Criando / acessando dataframe dentro da transformação de outro dataframe
Estou atualizando algum código existente para usar o Spark. Eu tenho vários quadros de dados que contêm conjuntos de dados diferentes. Ao transformar meu quadro de dados principal (ou meu conjunto de dados principal), preciso usar dados de outros ...
Problemas ao adicionar uma nova coluna a um quadro de dados - spark / scala
Eu sou novo no spark / scala. Estou tentando ler alguns dados de uma tabela de seção para um dataframe spark e adicionar uma coluna com base em alguma condição. Aqui está o meu código: val DF = hiveContext.sql("select * from (select * from ...
Apache Spark: obtenha o número de registros por partição
Quero verificar como podemos obter informações sobre cada partição, como o total não. de registros em cada partição no lado do driver quando o trabalho do Spark é enviado com o modo de implantação como um cluster de fios para registrar ...
Use um método dentro de uma função UDF Spark Scala
Eu quero usar um método localizado em outra classe dentro de uma função projetada pelo usuário, mas não está funcionando. Eu tenho um método: def traitementDataFrameEleve(sc:SparkSession, dfRedis:DataFrame, domainMail:String, ...