Resultados da pesquisa a pedido "apache-spark"
Compreendendo a representação da coluna vetorial no Spark SQL
Antes de usar o VectorAssembler () para consolidar alguns recursos categóricos do OneHotEncoded ... Meu quadro de dados era assim: | Numerical| HotEncoded1| HotEncoded2 | 14460.0| (44,[5],[1.0])| (3,[0],[1.0])| | 14460.0| (44,[9],[1.0])| ...
java.io.NotSerializableException no Spark Streaming com ponto de verificação ativado
código abaixo: def main(args: Array[String]) { val sc = new SparkContext val sec = Seconds(3) val ssc = new StreamingContext(sc, sec) ssc.checkpoint("./checkpoint") val rdd = ssc.sparkContext.parallelize(Seq("a","b","c")) val inputDStream = ...
Lendo vários arquivos do S3 no Spark por período de data
DescriçãoEu tenho um aplicativo que envia dados para o AWS Kinesis Firehose e isso grava os dados no meu bucket S3. O Firehose usa o formato "aaaa / MM / dd / HH" para gravar os arquivos. Como neste caminho S3 de ...
como combinar RDDs de 3 pares
Eu tenho um tipo de requisito complexo 1) 1) para Pinterest twitter handle , pinterest_post , pinterest_likes. handle "what" , 7 JavaPairRDD<String ,Pinterest> PintRDD2) para Instagram Twitter handle , instargam_post , instagram_likes handle ...
Como dividir Vector em colunas - usando PySpark
Contexto:eu tenho umDataFrame com 2 colunas: palavra e vetor. Onde o tipo de coluna de "vetor" éVectorUDT. Um exemplo: word | vector assert | [435,323,324,212...] ,E eu quero conseguir isso: word | v1 | v2 | v3 | v4 | v5 | v6 ...... assert | ...
Como saber o modo de implantação do aplicativo PySpark?
Estou tentando corrigir um problema de falta de memória e quero saber se preciso alterar essas configurações no arquivo de configurações padrão (spark-defaults.conf) na pasta inicial do spark. Ou, se eu puder defini-los no código. Eu vi essa ...
Spark: Salvando RDD em um caminho já existente no HDFS
Consigo salvar a saída RDD no HDFS comsaveAsTextFilemétodo. Este método lança uma exceção se o caminho do arquivo já existir. Eu tenho um caso de uso em que preciso salvar o RDDS em um caminho de arquivo já existente no HDFS. Existe uma maneira ...
Spark 2.0.0 Arrays.asList não está funcionando - tipos incompatíveis
O código a seguir funciona com o Spark 1.5.2, mas não com o Spark 2.0.0. Estou usando o Java 1.8. final SparkConf sparkConf = new SparkConf(); sparkConf.setMaster("local[4]"); // Four threads final JavaSparkContext javaSparkContext = ...
O foreachRDD é executado no driver?
Estou tentando processar alguns dados XML recebidos em uma fila JMS (QPID) usando o Spark Streaming. Depois de obter o xml como DStream, eu os converto em Dataframes para que eu possa juntá-los a alguns dos meus dados estáticos na forma de ...
Operador de comparação no PySpark (não é igual a /! =)
Estou tentando obter todas as linhas em um quadro de dados em que dois sinalizadores são definidos como '1' e, posteriormente, todos aqueles em que apenas um de dois está definido como '1' e o outroNÃO IGUALpara '1' Com o esquema a seguir (três ...