Resultados da pesquisa a pedido "apache-spark"

1 a resposta

Compreendendo a representação da coluna vetorial no Spark SQL

Antes de usar o VectorAssembler () para consolidar alguns recursos categóricos do OneHotEncoded ... Meu quadro de dados era assim: | Numerical| HotEncoded1| HotEncoded2 | 14460.0| (44,[5],[1.0])| (3,[0],[1.0])| | 14460.0| (44,[9],[1.0])| ...

1 a resposta

java.io.NotSerializableException no Spark Streaming com ponto de verificação ativado

código abaixo: def main(args: Array[String]) { val sc = new SparkContext val sec = Seconds(3) val ssc = new StreamingContext(sc, sec) ssc.checkpoint("./checkpoint") val rdd = ssc.sparkContext.parallelize(Seq("a","b","c")) val inputDStream = ...

1 a resposta

Lendo vários arquivos do S3 no Spark por período de data

DescriçãoEu tenho um aplicativo que envia dados para o AWS Kinesis Firehose e isso grava os dados no meu bucket S3. O Firehose usa o formato "aaaa / MM / dd / HH" para gravar os arquivos. Como neste caminho S3 de ...

1 a resposta

como combinar RDDs de 3 pares

Eu tenho um tipo de requisito complexo 1) 1) para Pinterest twitter handle , pinterest_post , pinterest_likes. handle "what" , 7 JavaPairRDD<String ,Pinterest> PintRDD2) para Instagram Twitter handle , instargam_post , instagram_likes handle ...

1 a resposta

Como dividir Vector em colunas - usando PySpark

Contexto:eu tenho umDataFrame com 2 colunas: palavra e vetor. Onde o tipo de coluna de "vetor" éVectorUDT. Um exemplo: word | vector assert | [435,323,324,212...] ,E eu quero conseguir isso: word | v1 | v2 | v3 | v4 | v5 | v6 ...... assert | ...

3 a resposta

Como saber o modo de implantação do aplicativo PySpark?

Estou tentando corrigir um problema de falta de memória e quero saber se preciso alterar essas configurações no arquivo de configurações padrão (spark-defaults.conf) na pasta inicial do spark. Ou, se eu puder defini-los no código. Eu vi essa ...

1 a resposta

Spark: Salvando RDD em um caminho já existente no HDFS

Consigo salvar a saída RDD no HDFS comsaveAsTextFilemétodo. Este método lança uma exceção se o caminho do arquivo já existir. Eu tenho um caso de uso em que preciso salvar o RDDS em um caminho de arquivo já existente no HDFS. Existe uma maneira ...

1 a resposta

Spark 2.0.0 Arrays.asList não está funcionando - tipos incompatíveis

O código a seguir funciona com o Spark 1.5.2, mas não com o Spark 2.0.0. Estou usando o Java 1.8. final SparkConf sparkConf = new SparkConf(); sparkConf.setMaster("local[4]"); // Four threads final JavaSparkContext javaSparkContext = ...

2 a resposta

O foreachRDD é executado no driver?

Estou tentando processar alguns dados XML recebidos em uma fila JMS (QPID) usando o Spark Streaming. Depois de obter o xml como DStream, eu os converto em Dataframes para que eu possa juntá-los a alguns dos meus dados estáticos na forma de ...

2 a resposta

Operador de comparação no PySpark (não é igual a /! =)

Estou tentando obter todas as linhas em um quadro de dados em que dois sinalizadores são definidos como '1' e, posteriormente, todos aqueles em que apenas um de dois está definido como '1' e o outroNÃO IGUALpara '1' Com o esquema a seguir (três ...