Resultados da pesquisa a pedido "pyspark"
Contar o número de linhas duplicadas no SPARKSQL
Eu tenho requisito onde eu preciso contar o número de linhas duplicadas nas tabelas SparkSQL for Hive. from pyspark import SparkContext, SparkConf from pyspark.sql import HiveContext from pyspark.sql.types import * from pyspark.sql import Row ...
Sparse Vector pyspark
Eu gostaria de encontrar um método eficiente para criar vetores de reposição no PySpark usando quadros de dados. Digamos que, dada a entrada transacional: df = spark.createDataFrame([ (0, "a"), (1, "a"), (1, "b"), (1, "c"), (2, "a"), (2, "b"), ...
Pyspark Split Columns
from pyspark.sql import Row, functions as F row = Row("UK_1","UK_2","Date","Cat",'Combined') agg = '' agg = 'Cat' tdf = (sc.parallelize ([ row(1,1,'12/10/2016',"A",'Water^World'), row(1,2,None,'A','Sea^Born'), ...
Mediana / quantis dentro do grupo PySpark
Gostaria de calcular quantis de grupo em um dataframe Spark (usando PySpark). Um resultado aproximado ou exato seria bom. Eu prefiro uma solução que eu possa usar dentro do contexto degroupBy / agg, para que eu possa misturá-lo com outras funções ...
SPARK SQL falha se não houver um caminho de partição especificado disponível
Estou usando o Hive Metastore no EMR. Consigo consultar a tabela manualmente através do HiveSQL. Mas quando eu uso a mesma tabela no Spark Job, ele dizO caminho de entrada não existe: s3: // Causado por: ...
pyspark: o sistema não consegue encontrar o caminho especificado
Acabei de instalar o pyspark 2.2.0 usando conda (usando python v3.6 no windows 7 64bit, java v1.8) $conda install pysparkEle baixou e parecia instalar corretamente, sem erros. Agora quando eu corropyspark na linha de comando, apenas diz "O ...
Crie um mapa para chamar o POJO para cada linha do Spark Dataframe
Criei um modelo de H2O em R e salvei o código POJO. Quero pontuar arquivos em parquet em hdfs usando o POJO, mas não sei ao certo como fazê-lo. Eu pretendo ler os arquivos do parquet no spark (scala / SparkR / PySpark) e marcá-los lá. Abaixo está ...
Pyspark: matriz de elenco com estrutura aninhada para cadeia
Eu tenho o dataframe pyspark com uma coluna chamadaFiltros: "matriz>" Eu quero salvar meu dataframe no arquivo csv, para isso eu preciso converter a matriz para o tipo de seqüência de caracteres. Eu tentei lançá-lo:DF.Filters.tostring() ...
Erro no Pipeline do Spark
Estou tentando executar um modelo de regressão logística multinomial from pyspark.sql import SparkSession spark = SparkSession.builder.appName('prepare_data').getOrCreate() from pyspark.sql.types import * spark.sql("DROP TABLE IF EXISTS ...
obter tipo de dados da coluna usando o pyspark
Estamos lendo dados do MongoDBCollection. Collection A coluna possui dois valores diferentes (por exemplo:(bson.Int64,int) (int,float) ) Estou tentando obter um tipo de dados usando o pyspark. Meu problema é que algumas colunas têm tipos de ...