Resultados da pesquisa a pedido "rdd"
O Spark não resistiria ao próprio RDD quando perceber que não será mais usado?
Podemos manter um RDD na memória e / ou disco quando queremos usá-lo mais de uma vez. No entanto, precisamos remover o anti-persistência posteriormente, ou o Spark faz algum tipo de coleta de lixo e remove o RDD quando não é mais necessário? ...
Converter um RDD em iterável: PySpark?
Eu tenho um RDD que estou criando carregando um arquivo de texto e pré-processando-o. Eu não quero coletá-lo e salvá-lo no disco ou na memória (dados inteiros), mas quero transmiti-lo para alguma outra função em python que consome dados um após o ...
O objeto 'PipelinedRDD' não possui atributo 'toDF' no PySpark
Estou tentando carregar um arquivo SVM e convertê-lo em umDataFrame para que eu possa usar o módulo ML (Pipeline ML) da Spark. Acabei de instalar um novo Spark 1.5.0 em um Ubuntu 14.04 (nãospark-env.sh configurado). Minhasmy_script.py é: from ...
PySpark DataFrames - maneira de enumerar sem converter para Pandas?
Eu tenho um grandepyspark.sql.dataframe.DataFramechamado df. Eu preciso de alguma maneira de enumerar registros, portanto, ser capaz de acessar registros com determinado índice. (ou selecione um grupo de registros com intervalo de índices) Nos ...
Como faço para dividir um RDD em dois ou mais RDDs?
Estou procurando uma maneira de dividir um RDD em dois ou mais RDDs. O mais próximo que eu vi éScala Spark: Coleção dividida em vários RDD? [https://stackoverflow.com/questions/27231524/scala-spark-split-collection-into-several-rdd] que ainda é ...
Convertendo RDD [org.apache.spark.sql.Row] para RDD [org.apache.spark.mllib.linalg.Vector]
Eu sou relativamente novo no Spark e Scala. Estou começando com o seguinte quadro de dados (coluna única composta por um denso vetor de duplas): scala> val scaledDataOnly_pruned = scaledDataOnly.select("features") scaledDataOnly_pruned: ...
Particionar RDD em tuplas de comprimento n
Eu sou relativamente novo no Apache Spark e Python e queria saber se algo como o que vou descrever é factível? Eu tenho um RDD do formato [m1m2m3m4m5m6....... mn$8Eu tenho um RDD do formato [m9m10m11m12m13m14$n-2mn-1mn)]. As tuplas internas ...
O groupByKey é sempre preferido em relação ao replaceByKey
Eu sempre usoreduceByKey quando eu preciso agrupar dados em RDDs, porque ele realiza uma redução no lado do mapa antes de embaralhar os dados, o que geralmente significa que menos dados são embaralhados e, assim, obtendo melhor desempenho. Mesmo ...
Remover partições vazias do Spark RDD
Estou buscando dados do HDFS e os armazenando em um Spark RDD. O Spark cria o número de partições com base no número de blocos HDFS. Isso leva a um grande número de partições vazias que também são processadas durante a tubulação. Para remover ...
Inicialize um RDD para esvaziar
Eu tenho um RDD chamado JavaPairRDD<String, List<String>> existingRDD;Agora eu preciso inicializar issoexistingRDD esvaziar para que, quando eu recebo os reais, eu possa fazer uma união com issoexistingRDD. Como inicializoexistingRDD para um RDD ...