Resultados da pesquisa a pedido "apache-spark"

2 a resposta

Por que o formato ("kafka") falha com "Falha ao localizar a fonte de dados: kafka". (Mesmo com o uber-jar)?

Eu uso o HDP-2.6.3.0 com o pacote Spark2 2.2.0. Estou tentando escrever um consumidor Kafka, usando a API de fluxo estruturado, mas estou recebendo o seguinte erro após enviar o trabalho ao cluster: Exception in thread "main" ...

1 a resposta

Obtendo várias métricas de regressão de uma só vez

Estou trabalhando com o pacote ML para fins de regressão e obtenho bons resultados em meus dados. Agora estou tentando obter várias métricas de uma só vez, pois agora estou fazendo o que é sugerido pelos exemplos ...

2 a resposta

Mapeando json para a classe case com Spark (espaços no nome do campo)

Eu estou tentando ler um arquivo json com a faíscaDataset API, o problema é que esse json contém espaços em alguns dos nomes de campo. Esta seria uma linha json {"Field Name" : "value"}Minha classe de caso precisa ser assim case class ...

2 a resposta

PySpark: Como preencher valores no dataframe para colunas específicas?

Eu tenho o seguinte exemplo DataFrame: a | b | c | 1 | 2 | 4 | 0 | null | null| null | 3 | 4 |E eu quero substituir valores nulos apenas nas 2 primeiras colunas - coluna "a" e "b": a | b | c | 1 | 2 | 4 | 0 | 0 | null| 0 | 3 | 4 |Aqui está o ...

1 a resposta

Usando Spark UDFs com sequências struct

Dado um quadro de dados em que uma coluna é uma sequência de estruturas geradas pela seguinte sequência val df = spark .range(10) .map((i) => (i % 2, util.Random.nextInt(10), util.Random.nextInt(10))) .toDF("a","b","c") ...

1 a resposta

Como exibir um DataFrame de streaming (como a mostra falha com o AnalysisException)?

Então, eu tenho alguns dados que estou transmitindo em um tópico Kafka, estou pegando esses dados e colocando-os em umDataFrame. Quero exibir os dados dentro do DataFrame: import os from kafka import KafkaProducer from pyspark.sql import ...

1 a resposta

Como usar as funções collect_set e collect_list na agregação de janelas no Spark 1.6?

No Spark 1.6.0 / Scala, há uma oportunidade de obtercollect_list("colC") oucollect_set("colC").over(Window.partitionBy("colA").orderBy("colB")?

2 a resposta

Como criar o projeto Spark / Scala no IntelliJ IDEA (falha ao resolver dependências no build.sbt)?

Estou tentando criar e executar um projeto Scala / Spark no IntelliJ IDEA. Eu adicioneiorg.apache.spark:spark-sql_2.11:2.0.0 em bibliotecas globais e meubuild.sbt se parece abaixo. name := "test" version := "1.0" scalaVersion := "2.11.8" ...

1 a resposta

A associação automática não está funcionando conforme o esperado com a API DataFrame

Estou tentando obter os registros mais recentes de uma tabela usando a associação automática. Funciona usandospark-sql mas não está trabalhando usando faíscaDataFrame API. Alguém pode ajudar? Isso é um bug? Estou usando o Spark 2.2.0 no modo ...

1 a resposta

Filtro de faísca DataFrame comparando lista

Estou usando o Python no Spark. Eu quero filtrar linhas onde um campo especificado é igual a uma lista inteira. df.show() +--------------------+---------------+ | _id| a1| +--------------------+---------------+ |[596d799cbc6ec95d...|[1.0, 2.0, ...