Resultados da pesquisa a pedido "rdd"

2 a resposta

O Spark não resistiria ao próprio RDD quando perceber que não será mais usado?

Podemos manter um RDD na memória e / ou disco quando queremos usá-lo mais de uma vez. No entanto, precisamos remover o anti-persistência posteriormente, ou o Spark faz algum tipo de coleta de lixo e remove o RDD quando não é mais necessário? ...

2 a resposta

Converter um RDD em iterável: PySpark?

Eu tenho um RDD que estou criando carregando um arquivo de texto e pré-processando-o. Eu não quero coletá-lo e salvá-lo no disco ou na memória (dados inteiros), mas quero transmiti-lo para alguma outra função em python que consome dados um após o ...

1 a resposta

O objeto 'PipelinedRDD' não possui atributo 'toDF' no PySpark

Estou tentando carregar um arquivo SVM e convertê-lo em umDataFrame para que eu possa usar o módulo ML (Pipeline ML) da Spark. Acabei de instalar um novo Spark 1.5.0 em um Ubuntu 14.04 (nãospark-env.sh configurado). Minhasmy_script.py é: from ...

5 a resposta

PySpark DataFrames - maneira de enumerar sem converter para Pandas?

Eu tenho um grandepyspark.sql.dataframe.DataFramechamado df. Eu preciso de alguma maneira de enumerar registros, portanto, ser capaz de acessar registros com determinado índice. (ou selecione um grupo de registros com intervalo de índices) Nos ...

4 a resposta

Como faço para dividir um RDD em dois ou mais RDDs?

Estou procurando uma maneira de dividir um RDD em dois ou mais RDDs. O mais próximo que eu vi éScala Spark: Coleção dividida em vários RDD? [https://stackoverflow.com/questions/27231524/scala-spark-split-collection-into-several-rdd] que ainda é ...

3 a resposta

Convertendo RDD [org.apache.spark.sql.Row] para RDD [org.apache.spark.mllib.linalg.Vector]

Eu sou relativamente novo no Spark e Scala. Estou começando com o seguinte quadro de dados (coluna única composta por um denso vetor de duplas): scala> val scaledDataOnly_pruned = scaledDataOnly.select("features") scaledDataOnly_pruned: ...

3 a resposta

Particionar RDD em tuplas de comprimento n

Eu sou relativamente novo no Apache Spark e Python e queria saber se algo como o que vou descrever é factível? Eu tenho um RDD do formato [m1m2m3m4m5m6....... mn$8Eu tenho um RDD do formato [m9m10m11m12m13m14$n-2mn-1mn)]. As tuplas internas ...

3 a resposta

O groupByKey é sempre preferido em relação ao replaceByKey

Eu sempre usoreduceByKey quando eu preciso agrupar dados em RDDs, porque ele realiza uma redução no lado do mapa antes de embaralhar os dados, o que geralmente significa que menos dados são embaralhados e, assim, obtendo melhor desempenho. Mesmo ...

1 a resposta

Remover partições vazias do Spark RDD

Estou buscando dados do HDFS e os armazenando em um Spark RDD. O Spark cria o número de partições com base no número de blocos HDFS. Isso leva a um grande número de partições vazias que também são processadas durante a tubulação. Para remover ...

6 a resposta

Inicialize um RDD para esvaziar

Eu tenho um RDD chamado JavaPairRDD<String, List<String>> existingRDD;Agora eu preciso inicializar issoexistingRDD esvaziar para que, quando eu recebo os reais, eu possa fazer uma união com issoexistingRDD. Como inicializoexistingRDD para um RDD ...