Resultados da pesquisa a pedido "spark-dataframe"

1 a resposta

Distância de cosseno da faísca entre linhas usando Dataframe

Preciso calcular uma distância de cosseno entre cada linha, mas não faço ideia de como fazê-lo usando os quadros de dados da API do Spark de maneira elegante. A idéia é calcular semelhanças para cada linha (itens) e obter as 10 ...

1 a resposta

Problemas com a função Rodada Pyspark

Tendo problemas para obter a função round em pyspar, k para funcionar - eu tenho o bloco de código abaixo, onde estou tentando arredondar onew_bid coluna com 2 casas decimais e renomeie a coluna comobid depois - ...

1 a resposta

Spark 2.2 Scala DataFrame selecione da matriz de strings, capturando erros

Eu sou novo no SparkSQL / Scala e estou lutando com algumas tarefas aparentemente simples. Estou tentando criar algum SQL dinâmico a partir de uma matriz de seqüência de caracteres Scala. Estou tentando redigitar algumas colunas no meu ...

1 a resposta

Spark Dataframe - Função de janelas - Lag & Lead para inserção e atualização de saída

Preciso executar a operação abaixo em quadros de dados usando a função Windowing Lag and Lead. Para cada chave, preciso executar a inserção e atualização abaixo na saída final Inserir condição: 1. Por padrão, LAYER_NO = 0, precisa ser gravado ...

1 a resposta

Como transformar o DataFrame antes de ingressar na operação?

O código a seguir é usado para extrair classificações da colunaproducts. As fileiras são segundos números em cada par[...]. Por exemplo, no exemplo dado[[222,66],[333,55]] as fileiras são66 e55 para produtos com PK222 e333, adequadamente. Mas o ...

1 a resposta

Contar o número de linhas duplicadas no SPARKSQL

Eu tenho requisito onde eu preciso contar o número de linhas duplicadas nas tabelas SparkSQL for Hive. from pyspark import SparkContext, SparkConf from pyspark.sql import HiveContext from pyspark.sql.types import * from pyspark.sql import Row ...

1 a resposta

Por que o Apache-Spark - Python é tão lento localmente em comparação com os pandas?

Uma faísca novato aqui. Recentemente, comecei a brincar com o spark na minha máquina local em dois núcleos usando o comando pyspark --master local [2] Eu tenho um arquivo de texto de 393 Mb que tem quase um milhão de linhas. Eu queria realizar ...

1 a resposta

Como definir a precisão da exibição no PySpark Dataframe show

Como você define a precisão de exibição no PySpark ao chamar.show()? Considere o seguinte exemplo: from math import sqrt import pyspark.sql.functions as f data = zip( map(lambda x: sqrt(x), range(100, 105)), map(lambda x: sqrt(x), range(200, ...

1 a resposta

Como ativar a junção cartesiana no Spark 2.0? [duplicado

Esta pergunta já tem uma resposta aqui: spark.sql.crossJoin.enabled para Spark 2.x [/questions/38999140/spark-sql-crossjoin-enabled-for-spark-2-x] 3 respostas Preciso cruzar a junção de 2 dataframe no Spark 2.0 Estou encontrando o ...

1 a resposta

Determinação do número ideal de partições Spark com base em trabalhadores, núcleos e tamanho do DataFrame

Existem vários conceitos semelhantes, porém diferentes, no Spark-land que envolvem como o trabalho é distribuído em diferentes nós e executado simultaneamente. Especificamente, há: O nó do Driver Spark sparkDriverCount)O número de nós do ...