Resultados da pesquisa a pedido "apache-spark"

Recebo tweets do tópico kafka com o Avro (serializador e desserializador). Então eu crio um consumidor de faísca que extrai tweets no Dstream do RDD [GenericRecord]. Agora eu quero converter cada rdd em um dataframe para analisar esses tweets via ...

spark-dataframe apache-spark-sql

1 a resposta

Dataframe Spark: Gere uma matriz de tupla a partir de um tipo de mapa

Minha fonte downstream não suporta um tipo de mapa e minha fonte suporta e, como tal, envia isso. Eu preciso converter este mapa em uma matriz de struct (tupla). O Scala suporta Map.toArray, que cria uma matriz de tupla para você, que parece ser ...

apache-spark-sql

3 a resposta

Compare dois quadros de dados Spark

Dataframe Spark 1 -: +------+-------+---------+----+---+-------+ |city |product|date |sale|exp|wastage| +------+-------+---------+----+---+-------+ |city 1|prod 1 |9/29/2017|358 |975|193 | |city 1|prod 2 |8/25/2017|50 |687|201 | |city 1|prod ...

apache-spark-sql sql pyspark-sql

1 a resposta

Cadeia de conversão do Spark SQL para carimbo de data e hora

Eu sou novo no Spark SQL e estou tentando converter uma string em um carimbo de data / hora em um quadro de dados do spark. Eu tenho uma string que parece'2017-08-01T02:26:59.000Z' em uma coluna chamada time_string Meu código para converter essa ...

java json apache-spark-sql

1 a resposta

Reter chaves com valores nulos ao escrever JSON no spark

Estou tentando escrever um arquivo JSON usando o spark. Existem algumas chaves que possuemnull como valor. Estes aparecem muito bem noDataSet, mas quando escrevo o arquivo, as chaves são descartadas. Como garantir que eles sejam mantidos? código ...

jupyter-notebook jupyter ipython pyspark

1 a resposta

Inicialize o PySpark para predefinir a variável SparkContext 'sc'

Ao usar o PySpark, gostaria que um SparkContext fosse inicializado (no modo cliente do fio) após a criação de um novo notebook. Os tutoriais a seguir descrevem como fazer isso em versões anteriores do ipython / jupyter ...

metadata pyspark apache-spark-ml

1 a resposta

Como alterar os metadados da coluna no pyspark?

Como posso atualizar os metadados da coluna no PySpark? Tenho valores de metadados correspondentes à codificação nominal de recursos categóricos (string) e gostaria de decodificá-los novamente de maneira automatizada. A gravação dos metadados na ...

pyspark apache-spark-sql python dataframe

3 a resposta

Pyspark: substituindo valor em uma coluna pesquisando um dicionário

Eu sou um novato no PySpark. Eu tenho uma faíscaDataFrame df que possui uma coluna 'device_type'. Desejo substituir todos os valores contidos em "Tablet" ou "Telefone" por "Telefone" e substituir "PC" por "Área de trabalho". No Python, posso ...

spark-structured-streaming java

1 a resposta

Exceção de fluxo estruturado ao usar o modo de saída acréscimo com marca d'água

Apesar do fato de eu estar usandowithWatermark(), Estou recebendo a seguinte mensagem de erro quando executo meu trabalho de faísca: Exceção no encadeamento "main" org.apache.spark.sql.AnalysisException: anexar modo de saída não suportado quando ...

approximation

2 a resposta

Em resumo, como estimar rapidamente o número de elementos em um dataframe

Como resultado, existe uma maneira rápida de obter uma contagem aproximada do número de elementos em um conjunto de dados? Ou seja, mais rápido queDataset.count() faz. Talvez possamos calcular essas informações a partir do número de partições ...

Página 57 do 167

55 565758 59

Resultados da pesquisa a pedido "apache-spark"

Como converter RDD [GenericRecord] em dataframe no scala?

Dataframe Spark: Gere uma matriz de tupla a partir de um tipo de mapa

Compare dois quadros de dados Spark

Tags populares

Cadeia de conversão do Spark SQL para carimbo de data e hora

Reter chaves com valores nulos ao escrever JSON no spark

Inicialize o PySpark para predefinir a variável SparkContext 'sc'

Como alterar os metadados da coluna no pyspark?

Pyspark: substituindo valor em uma coluna pesquisando um dicionário

Exceção de fluxo estruturado ao usar o modo de saída acréscimo com marca d'água

Em resumo, como estimar rapidamente o número de elementos em um dataframe

Você é muito ativo! É ótimo!

Resultados da pesquisa a pedido "apache-spark"

Tags populares