Resultados da pesquisa a pedido "apache-spark-sql"

3 a resposta

Erro ao explodir uma coluna struct no Spark

Eu tenho um quadro de dados cujo esquema se parece com isso: event: struct (nullable = true) | | event_category: string (nullable = true) | | event_name: string (nullable = true) | | properties: struct (nullable = true) | | | ErrorCode: string ...

1 a resposta

NullPointerException após extrair uma tabela Teradata com Scala / Spark

Preciso extrair uma tabela do Teradata (acesso somente leitura) para parquet com o Scala (2.11) / Spark (2.1.0). Estou construindo um quadro de dados que posso carregar com sucesso val df = ...

2 a resposta

O Spark Strutured Streaming converte automaticamente o carimbo de data / hora para a hora local

Eu tenho meu carimbo de data e hora no UTC e ISO8601, mas usando o Streaming estruturado, ele é convertido automaticamente no horário local. Existe uma maneira de parar essa conversão? Eu gostaria de tê-lo no UTC. Estou lendo dados json do Kafka ...

1 a resposta

Como usar o UDF para retornar várias colunas?

É possível criar um UDF que retornaria o conjunto de colunas? I.e. tendo um quadro de dados da seguinte maneira: | Feature1 | Feature2 | Feature 3 | | 1.3 | 3.4 | 4.5 |Agora eu gostaria de extrair um novo recurso, que pode ser descrito como um ...

2 a resposta

Como usar o DataFrame withColumn e não alterar a partição?

Por alguma razão eu tenho que converterRDD paraDataFrame, então faça algo comDataFrame. Minha interface éRDDentão eu tenho que converterDataFrame paraRDD, E quando eu usodf.withcolumn, a partição muda para 1, então eu tenho querepartition ...

2 a resposta

Filtro de várias condições no quadro de dados

Alguém pode me explicar por que estou obtendo resultados diferentes para essas duas expressões? Estou tentando filtrar entre 2 datas: df.filter("act_date <='2017-04-01'" and "act_date ...

1 a resposta

Criando / acessando dataframe dentro da transformação de outro dataframe

Estou atualizando algum código existente para usar o Spark. Eu tenho vários quadros de dados que contêm conjuntos de dados diferentes. Ao transformar meu quadro de dados principal (ou meu conjunto de dados principal), preciso usar dados de outros ...

1 a resposta

Problemas ao adicionar uma nova coluna a um quadro de dados - spark / scala

Eu sou novo no spark / scala. Estou tentando ler alguns dados de uma tabela de seção para um dataframe spark e adicionar uma coluna com base em alguma condição. Aqui está o meu código: val DF = hiveContext.sql("select * from (select * from ...

4 a resposta

Apache Spark: obtenha o número de registros por partição

Quero verificar como podemos obter informações sobre cada partição, como o total não. de registros em cada partição no lado do driver quando o trabalho do Spark é enviado com o modo de implantação como um cluster de fios para registrar ...

1 a resposta

Use um método dentro de uma função UDF Spark Scala

Eu quero usar um método localizado em outra classe dentro de uma função projetada pelo usuário, mas não está funcionando. Eu tenho um método: def traitementDataFrameEleve(sc:SparkSession, dfRedis:DataFrame, domainMail:String, ...