Resultados da pesquisa a pedido "apache-spark"

1 a resposta

Spark Streaming Estruturado usando soquetes, defina SCHEMA, Exibir DATAFRAME no console

Como posso definir um esquema para um streamingDataFrame no PySpark. from pyspark.sql import SparkSession from pyspark.sql.functions import explode from pyspark.sql.functions import split # Import data types from pyspark.sql.types import * spark ...

1 a resposta

Esquema para o tipo Qualquer não é suportado

Estou tentando criar um UDF spark para extrair um mapa de pares (chave, valor) de uma classe de caso definida pelo usuário. A função scala parece funcionar bem, mas quando tento convertê-la em uma UDF no spark2.0, estou executando o erro ...

1 a resposta

Como definir o UDAF nas janelas de horário do evento no PySpark 2.1.0

[/imgs/NQvm9.png] Estou escrevendo um aplicativo Python que desliza uma janela sobre uma sequência de valores, cada um com um carimbo de data / hora. Desejo aplicar uma função aos valores na janela deslizante para calcular uma pontuação dos N ...

1 a resposta

Qual é o uso de --driver-class-path no comando spark?

Conforme a faíscadocs [http://spark.apache.org/docs/latest/sql-programming-guide.html#jdbc-to-other-databases] , Para começar, você precisará incluir o driver JDBC para seu banco de dados específico no caminho de classe do spark. Por exemplo, ...

7 a resposta

Resolvendo problemas de dependência no Apache Spark

Os problemas comuns ao criar e implantar aplicativos Spark são: java.lang.ClassNotFoundException.object x is not a member of package y erros de compilação.java.lang.NoSuchMethodErrorComo estes podem ser resolvidos?

2 a resposta

pyspark analisar arquivo de texto de largura fixa

Tentando analisar um arquivo de texto de largura fixa. meu arquivo de texto se parece com o seguinte e preciso de um ID de linha, data, uma string e um número inteiro: 00101292017you1234 00201302017 me5678Eu posso ler o arquivo de texto em um ...

1 a resposta

Autenticação do servidor Spark History no cluster Kerberized

Eu configurei um cluster HDP que contém, entre outros, o Spark. Também habilitei o Kerberos para o cluster, para que todos os serviços e usuários tenham que se autenticar através de seus principais. Isso parece funcionar bem, todos os serviços ...

7 a resposta

Como converter Row para json no Spark 2 Scala

Existe uma maneira simples de converter um determinado objeto Row para json? Encontrei isso sobre a conversão de um Dataframe inteiro em uma saída json:Linha Spark para JSON [https://stackoverflow.com/questions/36157810/spark-row-to-json] Mas ...

3 a resposta

PySpark substitui null na coluna pelo valor em outra coluna

Quero substituir valores nulos em uma coluna pelos valores em uma coluna adjacente, por exemplo, se eu tiver A|B 0,1 2,null 3,null 4,2Eu quero que seja: A|B 0,1 2,2 3,3 4,2Tentei com df.na.fill(df.A,"B")Mas não funcionou, diz que o valor deve ...

3 a resposta

Como gravar o conjunto de dados de streaming no Kafka?

Estou tentando enriquecer os dados dos tópicos. Portanto, leia do Kafka e volte para o Kafka usando o streaming estruturado do Spark. val ds = spark.readStream .format("kafka") .option("kafka.bootstrap.servers", bootstrapServers) ...