Resultados da pesquisa a pedido "pyspark"

1 a resposta

PySpark: inconsistência na conversão de carimbo de data e hora em número inteiro no quadro de dados

Eu tenho um dataframe com uma estrutura aproximada como a seguinte: +-------------------------+-------------------------+--------+ | timestamp | adj_timestamp | values | +-------------------------+-------------------------+--------+ | ...

2 a resposta

Substituir tabelas MySQL com o AWS Glue

Eu tenho um processo lambda que ocasionalmente pesquisa uma API para dados recentes. Esses dados possuem chaves exclusivas e eu gostaria de usar o Glue para atualizar a tabela no MySQL. Existe uma opção para substituir dados usando essa chave? ...

1 a resposta

Como escrever Pyspark UDAF em várias colunas?

Eu tenho os seguintes dados em um dataframe pyspark chamadoend_stats_df: values start end cat1 cat2 10 1 2 A B 11 1 2 C B 12 1 2 D B 510 1 2 D C 550 1 2 C B 500 1 2 A B 80 1 3 A BE eu quero agregá-lo da seguinte maneira: Eu quero usar as ...

1 a resposta

Por que o Apache-Spark - Python é tão lento localmente em comparação com os pandas?

Uma faísca novato aqui. Recentemente, comecei a brincar com o spark na minha máquina local em dois núcleos usando o comando pyspark --master local [2] Eu tenho um arquivo de texto de 393 Mb que tem quase um milhão de linhas. Eu queria realizar ...

1 a resposta

Como adicionar uma coluna à estrutura explodida no Spark?

Digamos que tenho os seguintes dados: {"id":1, "payload":[{"foo":1, "lol":2},{"foo":2, "lol":2}]}Gostaria de explodir a carga útil e adicionar uma coluna a ela, assim: df = df.select('id', F.explode('payload').alias('data')) df ...

1 a resposta

Os TensorFrames não funcionam com o Tensorflow na Data Science Experience

Este é um acompanhamento deesta [https://stackoverflow.com/questions/44120979/how-do-i-implement-the-tensorframes-spark-package-on-data-science-experience] Pergunta, questão. Importei os seguintes frascos para o meu ...

1 a resposta

Lendo várias pastas / caminhos do S3 no PySpark

Estou conduzindo uma análise de big data usando o PySpark. Consigo importar todos os arquivos CSV, armazenados em uma pasta específica de um intervalo específico, usando o seguinte comando: df = ...

1 a resposta

Erro ao transmitir dados de um Dataframe para um ML VectorIndexerModel existente

Eu tenho um Dataframe que eu quero usar para previsão com um modelo existente. Eu recebo um erro ao usar o método de transformação do meu modelo. É assim que eu processo os dados de treinamento. forecast.printSchema()O esquema do meu ...

1 a resposta

Servir previsões em tempo real com o modelo Spark ML treinado [duplicado]

Esta pergunta já tem uma resposta aqui: Como servir um modelo Spark MLlib? [/questions/40533582/how-to-serve-a-spark-mllib-model] 3 respostasNo momento, estamos testando um mecanismo de previsão baseado na implementação do LDA do Spark em ...

1 a resposta

Média móvel ponderada no Pyspark

Estou escrevendo um algoritmo de detecção de anomalias para séries temporais no Pyspark. Quero calcular uma média móvel ponderada de uma janela (-3,3) ou (-4,4). No momento, estou usando as funções lag e lead over window e multiplicando-as por um ...