Resultados da pesquisa a pedido "apache-spark"
Spark Streaming Estruturado usando soquetes, defina SCHEMA, Exibir DATAFRAME no console
Como posso definir um esquema para um streamingDataFrame no PySpark. from pyspark.sql import SparkSession from pyspark.sql.functions import explode from pyspark.sql.functions import split # Import data types from pyspark.sql.types import * spark ...
Esquema para o tipo Qualquer não é suportado
Estou tentando criar um UDF spark para extrair um mapa de pares (chave, valor) de uma classe de caso definida pelo usuário. A função scala parece funcionar bem, mas quando tento convertê-la em uma UDF no spark2.0, estou executando o erro ...
Como definir o UDAF nas janelas de horário do evento no PySpark 2.1.0
[/imgs/NQvm9.png] Estou escrevendo um aplicativo Python que desliza uma janela sobre uma sequência de valores, cada um com um carimbo de data / hora. Desejo aplicar uma função aos valores na janela deslizante para calcular uma pontuação dos N ...
Qual é o uso de --driver-class-path no comando spark?
Conforme a faíscadocs [http://spark.apache.org/docs/latest/sql-programming-guide.html#jdbc-to-other-databases] , Para começar, você precisará incluir o driver JDBC para seu banco de dados específico no caminho de classe do spark. Por exemplo, ...
Resolvendo problemas de dependência no Apache Spark
Os problemas comuns ao criar e implantar aplicativos Spark são: java.lang.ClassNotFoundException.object x is not a member of package y erros de compilação.java.lang.NoSuchMethodErrorComo estes podem ser resolvidos?
pyspark analisar arquivo de texto de largura fixa
Tentando analisar um arquivo de texto de largura fixa. meu arquivo de texto se parece com o seguinte e preciso de um ID de linha, data, uma string e um número inteiro: 00101292017you1234 00201302017 me5678Eu posso ler o arquivo de texto em um ...
Autenticação do servidor Spark History no cluster Kerberized
Eu configurei um cluster HDP que contém, entre outros, o Spark. Também habilitei o Kerberos para o cluster, para que todos os serviços e usuários tenham que se autenticar através de seus principais. Isso parece funcionar bem, todos os serviços ...
Como converter Row para json no Spark 2 Scala
Existe uma maneira simples de converter um determinado objeto Row para json? Encontrei isso sobre a conversão de um Dataframe inteiro em uma saída json:Linha Spark para JSON [https://stackoverflow.com/questions/36157810/spark-row-to-json] Mas ...
PySpark substitui null na coluna pelo valor em outra coluna
Quero substituir valores nulos em uma coluna pelos valores em uma coluna adjacente, por exemplo, se eu tiver A|B 0,1 2,null 3,null 4,2Eu quero que seja: A|B 0,1 2,2 3,3 4,2Tentei com df.na.fill(df.A,"B")Mas não funcionou, diz que o valor deve ...
Como gravar o conjunto de dados de streaming no Kafka?
Estou tentando enriquecer os dados dos tópicos. Portanto, leia do Kafka e volte para o Kafka usando o streaming estruturado do Spark. val ds = spark.readStream .format("kafka") .option("kafka.bootstrap.servers", bootstrapServers) ...