Resultados da pesquisa a pedido "pyspark"
PySpark: inconsistência na conversão de carimbo de data e hora em número inteiro no quadro de dados
Eu tenho um dataframe com uma estrutura aproximada como a seguinte: +-------------------------+-------------------------+--------+ | timestamp | adj_timestamp | values | +-------------------------+-------------------------+--------+ | ...
Substituir tabelas MySQL com o AWS Glue
Eu tenho um processo lambda que ocasionalmente pesquisa uma API para dados recentes. Esses dados possuem chaves exclusivas e eu gostaria de usar o Glue para atualizar a tabela no MySQL. Existe uma opção para substituir dados usando essa chave? ...
Como escrever Pyspark UDAF em várias colunas?
Eu tenho os seguintes dados em um dataframe pyspark chamadoend_stats_df: values start end cat1 cat2 10 1 2 A B 11 1 2 C B 12 1 2 D B 510 1 2 D C 550 1 2 C B 500 1 2 A B 80 1 3 A BE eu quero agregá-lo da seguinte maneira: Eu quero usar as ...
Por que o Apache-Spark - Python é tão lento localmente em comparação com os pandas?
Uma faísca novato aqui. Recentemente, comecei a brincar com o spark na minha máquina local em dois núcleos usando o comando pyspark --master local [2] Eu tenho um arquivo de texto de 393 Mb que tem quase um milhão de linhas. Eu queria realizar ...
Como adicionar uma coluna à estrutura explodida no Spark?
Digamos que tenho os seguintes dados: {"id":1, "payload":[{"foo":1, "lol":2},{"foo":2, "lol":2}]}Gostaria de explodir a carga útil e adicionar uma coluna a ela, assim: df = df.select('id', F.explode('payload').alias('data')) df ...
Os TensorFrames não funcionam com o Tensorflow na Data Science Experience
Este é um acompanhamento deesta [https://stackoverflow.com/questions/44120979/how-do-i-implement-the-tensorframes-spark-package-on-data-science-experience] Pergunta, questão. Importei os seguintes frascos para o meu ...
Lendo várias pastas / caminhos do S3 no PySpark
Estou conduzindo uma análise de big data usando o PySpark. Consigo importar todos os arquivos CSV, armazenados em uma pasta específica de um intervalo específico, usando o seguinte comando: df = ...
Erro ao transmitir dados de um Dataframe para um ML VectorIndexerModel existente
Eu tenho um Dataframe que eu quero usar para previsão com um modelo existente. Eu recebo um erro ao usar o método de transformação do meu modelo. É assim que eu processo os dados de treinamento. forecast.printSchema()O esquema do meu ...
Servir previsões em tempo real com o modelo Spark ML treinado [duplicado]
Esta pergunta já tem uma resposta aqui: Como servir um modelo Spark MLlib? [/questions/40533582/how-to-serve-a-spark-mllib-model] 3 respostasNo momento, estamos testando um mecanismo de previsão baseado na implementação do LDA do Spark em ...
Média móvel ponderada no Pyspark
Estou escrevendo um algoritmo de detecção de anomalias para séries temporais no Pyspark. Quero calcular uma média móvel ponderada de uma janela (-3,3) ou (-4,4). No momento, estou usando as funções lag e lead over window e multiplicando-as por um ...