Resultados da pesquisa a pedido "apache-spark"

Antes de usar o VectorAssembler () para consolidar alguns recursos categóricos do OneHotEncoded ... Meu quadro de dados era assim: | Numerical| HotEncoded1| HotEncoded2 | 14460.0| (44,[5],[1.0])| (3,[0],[1.0])| | 14460.0| (44,[9],[1.0])| ...

spark-streaming rdd

1 a resposta

java.io.NotSerializableException no Spark Streaming com ponto de verificação ativado

código abaixo: def main(args: Array[String]) { val sc = new SparkContext val sec = Seconds(3) val ssc = new StreamingContext(sc, sec) ssc.checkpoint("./checkpoint") val rdd = ssc.sparkContext.parallelize(Seq("a","b","c")) val inputDStream = ...

aws-sdk scala apache-spark-sql amazon-s3

1 a resposta

Lendo vários arquivos do S3 no Spark por período de data

DescriçãoEu tenho um aplicativo que envia dados para o AWS Kinesis Firehose e isso grava os dados no meu bucket S3. O Firehose usa o formato "aaaa / MM / dd / HH" para gravar os arquivos. Como neste caminho S3 de ...

rdd java

1 a resposta

como combinar RDDs de 3 pares

Eu tenho um tipo de requisito complexo 1) 1) para Pinterest twitter handle , pinterest_post , pinterest_likes. handle "what" , 7 JavaPairRDD<String ,Pinterest> PintRDD2) para Instagram Twitter handle , instargam_post , instagram_likes handle ...

apache-spark-sql python pyspark apache-spark-ml

1 a resposta

Como dividir Vector em colunas - usando PySpark

Contexto:eu tenho umDataFrame com 2 colunas: palavra e vetor. Onde o tipo de coluna de "vetor" éVectorUDT. Um exemplo: word | vector assert | [435,323,324,212...] ,E eu quero conseguir isso: word | v1 | v2 | v3 | v4 | v5 | v6 ...... assert | ...

cluster-computing pyspark

3 a resposta

Como saber o modo de implantação do aplicativo PySpark?

Estou tentando corrigir um problema de falta de memória e quero saber se preciso alterar essas configurações no arquivo de configurações padrão (spark-defaults.conf) na pasta inicial do spark. Ou, se eu puder defini-los no código. Eu vi essa ...

rdd hadoop hdfs

1 a resposta

Spark: Salvando RDD em um caminho já existente no HDFS

Consigo salvar a saída RDD no HDFS comsaveAsTextFilemétodo. Este método lança uma exceção se o caminho do arquivo já existir. Eu tenho um caso de uso em que preciso salvar o RDDS em um caminho de arquivo já existente no HDFS. Existe uma maneira ...

java

1 a resposta

Spark 2.0.0 Arrays.asList não está funcionando - tipos incompatíveis

O código a seguir funciona com o Spark 1.5.2, mas não com o Spark 2.0.0. Estou usando o Java 1.8. final SparkConf sparkConf = new SparkConf(); sparkConf.setMaster("local[4]"); // Four threads final JavaSparkContext javaSparkContext = ...

spark-streaming

2 a resposta

O foreachRDD é executado no driver?

Estou tentando processar alguns dados XML recebidos em uma fila JMS (QPID) usando o Spark Streaming. Depois de obter o xml como DStream, eu os converto em Dataframes para que eu possa juntá-los a alguns dos meus dados estáticos na forma de ...

apache-spark-sql pyspark null sql

2 a resposta

Operador de comparação no PySpark (não é igual a /! =)

Estou tentando obter todas as linhas em um quadro de dados em que dois sinalizadores são definidos como '1' e, posteriormente, todos aqueles em que apenas um de dois está definido como '1' e o outroNÃO IGUALpara '1' Com o esquema a seguir (três ...

Página 16 do 167

14 151617 18

Resultados da pesquisa a pedido "apache-spark"

Compreendendo a representação da coluna vetorial no Spark SQL

java.io.NotSerializableException no Spark Streaming com ponto de verificação ativado

Lendo vários arquivos do S3 no Spark por período de data

Tags populares

como combinar RDDs de 3 pares

Como dividir Vector em colunas - usando PySpark

Como saber o modo de implantação do aplicativo PySpark?

Spark: Salvando RDD em um caminho já existente no HDFS

Spark 2.0.0 Arrays.asList não está funcionando - tipos incompatíveis

O foreachRDD é executado no driver?

Operador de comparação no PySpark (não é igual a /! =)

Você é muito ativo! É ótimo!

Resultados da pesquisa a pedido "apache-spark"

Tags populares