Resultados da pesquisa a pedido "spark-dataframe"

2 a resposta

Como substituir valores vazios em uma coluna do DataFrame?

Como posso substituir valores vazios em uma colunaField1 do DataFramedf? Field1 Field2 AA 12 BBEste comando não fornece um resultado esperado: df.na.fill("Field1",Seq("Anonymous"))O resultado esperado: Field1 Field2 Anonymous AA 12 BB

2 a resposta

qual é a diferença entre SparkSession e SparkContext? [duplicado

Esta pergunta já tem uma resposta aqui: Diferença entre SparkContext, JavaSparkContext, SQLContext e SparkSession? [/questions/43802809/difference-between-sparkcontext-javasparkcontext-sqlcontext-and-sparksession] 3 respostas Eu sei apenas a ...

0 a resposta

Obtendo o erro "Falha ao obter uma instância do HMACSHA256" ao acessar o Azure CosmosDB

Estou tentando gravar o quadro de dados Spark no Azure CosmosDB e defini toda a configuração correta, mas obtendo o seguinte erro ao tentar gravar dados. My Build.sbt name := "MyApp" version := "1.0" scalaVersion := "2.10.7" ...

2 a resposta

Transformando uma coluna e atualize o DataFrame

Então, o que estou fazendo abaixo é soltar uma colunaA a partir de umDataFrame porque eu quero aplicar uma transformação (aqui eu apenasjson.loads uma sequência JSON) e substitua a coluna antiga pela transformada. Após a transformação, juntei os ...

1 a resposta

Como definir a precisão da exibição no PySpark Dataframe show

Como você define a precisão de exibição no PySpark ao chamar.show()? Considere o seguinte exemplo: from math import sqrt import pyspark.sql.functions as f data = zip( map(lambda x: sqrt(x), range(100, 105)), map(lambda x: sqrt(x), range(200, ...

1 a resposta

Por que o Apache-Spark - Python é tão lento localmente em comparação com os pandas?

Uma faísca novato aqui. Recentemente, comecei a brincar com o spark na minha máquina local em dois núcleos usando o comando pyspark --master local [2] Eu tenho um arquivo de texto de 393 Mb que tem quase um milhão de linhas. Eu queria realizar ...

1 a resposta

Contar o número de linhas duplicadas no SPARKSQL

Eu tenho requisito onde eu preciso contar o número de linhas duplicadas nas tabelas SparkSQL for Hive. from pyspark import SparkContext, SparkConf from pyspark.sql import HiveContext from pyspark.sql.types import * from pyspark.sql import Row ...

1 a resposta

Como transformar o DataFrame antes de ingressar na operação?

O código a seguir é usado para extrair classificações da colunaproducts. As fileiras são segundos números em cada par[...]. Por exemplo, no exemplo dado[[222,66],[333,55]] as fileiras são66 e55 para produtos com PK222 e333, adequadamente. Mas o ...

3 a resposta

Erro ao explodir uma coluna struct no Spark

Eu tenho um quadro de dados cujo esquema se parece com isso: event: struct (nullable = true) | | event_category: string (nullable = true) | | event_name: string (nullable = true) | | properties: struct (nullable = true) | | | ErrorCode: string ...

1 a resposta

Spark Dataframe - Função de janelas - Lag & Lead para inserção e atualização de saída

Preciso executar a operação abaixo em quadros de dados usando a função Windowing Lag and Lead. Para cada chave, preciso executar a inserção e atualização abaixo na saída final Inserir condição: 1. Por padrão, LAYER_NO = 0, precisa ser gravado ...