Resultados da pesquisa a pedido "rdd"

Podemos manter um RDD na memória e / ou disco quando queremos usá-lo mais de uma vez. No entanto, precisamos remover o anti-persistência posteriormente, ou o Spark faz algum tipo de coleta de lixo e remove o RDD quando não é mais necessário? ...

python pyspark apache-spark

2 a resposta

Converter um RDD em iterável: PySpark?

Eu tenho um RDD que estou criando carregando um arquivo de texto e pré-processando-o. Eu não quero coletá-lo e salvá-lo no disco ou na memória (dados inteiros), mas quero transmiti-lo para alguma outra função em python que consome dados um após o ...

pyspark apache-spark python apache-spark-sql

1 a resposta

O objeto 'PipelinedRDD' não possui atributo 'toDF' no PySpark

Estou tentando carregar um arquivo SVM e convertê-lo em umDataFrame para que eu possa usar o módulo ML (Pipeline ML) da Spark. Acabei de instalar um novo Spark 1.5.0 em um Ubuntu 14.04 (nãospark-env.sh configurado). Minhasmy_script.py é: from ...

apache-spark python pyspark bigdata

5 a resposta

PySpark DataFrames - maneira de enumerar sem converter para Pandas?

Eu tenho um grandepyspark.sql.dataframe.DataFramechamado df. Eu preciso de alguma maneira de enumerar registros, portanto, ser capaz de acessar registros com determinado índice. (ou selecione um grupo de registros com intervalo de índices) Nos ...

pyspark apache-spark

4 a resposta

Como faço para dividir um RDD em dois ou mais RDDs?

Estou procurando uma maneira de dividir um RDD em dois ou mais RDDs. O mais próximo que eu vi éScala Spark: Coleção dividida em vários RDD? [https://stackoverflow.com/questions/27231524/scala-spark-split-collection-into-several-rdd] que ainda é ...

scala apache-spark spark-dataframe apache-spark-mllib

3 a resposta

Convertendo RDD [org.apache.spark.sql.Row] para RDD [org.apache.spark.mllib.linalg.Vector]

Eu sou relativamente novo no Spark e Scala. Estou começando com o seguinte quadro de dados (coluna única composta por um denso vetor de duplas): scala> val scaledDataOnly_pruned = scaledDataOnly.select("features") scaledDataOnly_pruned: ...

pyspark apache-spark python

3 a resposta

Particionar RDD em tuplas de comprimento n

Eu sou relativamente novo no Apache Spark e Python e queria saber se algo como o que vou descrever é factível? Eu tenho um RDD do formato [m1m2m3m4m5m6....... mn$8Eu tenho um RDD do formato [m9m10m11m12m13m14$n-2mn-1mn)]. As tuplas internas ...

apache-spark

3 a resposta

O groupByKey é sempre preferido em relação ao replaceByKey

Eu sempre usoreduceByKey quando eu preciso agrupar dados em RDDs, porque ele realiza uma redução no lado do mapa antes de embaralhar os dados, o que geralmente significa que menos dados são embaralhados e, assim, obtendo melhor desempenho. Mesmo ...

hadoop apache-spark pyspark

1 a resposta

Remover partições vazias do Spark RDD

Estou buscando dados do HDFS e os armazenando em um Spark RDD. O Spark cria o número de partições com base no número de blocos HDFS. Isso leva a um grande número de partições vazias que também são processadas durante a tubulação. Para remover ...

apache-spark java

6 a resposta

Inicialize um RDD para esvaziar

Eu tenho um RDD chamado JavaPairRDD<String, List<String>> existingRDD;Agora eu preciso inicializar issoexistingRDD esvaziar para que, quando eu recebo os reais, eu possa fazer uma união com issoexistingRDD. Como inicializoexistingRDD para um RDD ...

Página 9 do 12

7 8910 11

Resultados da pesquisa a pedido "rdd"

O Spark não resistiria ao próprio RDD quando perceber que não será mais usado?

Converter um RDD em iterável: PySpark?

O objeto 'PipelinedRDD' não possui atributo 'toDF' no PySpark

Tags populares

PySpark DataFrames - maneira de enumerar sem converter para Pandas?

Como faço para dividir um RDD em dois ou mais RDDs?

Convertendo RDD [org.apache.spark.sql.Row] para RDD [org.apache.spark.mllib.linalg.Vector]

Particionar RDD em tuplas de comprimento n

O groupByKey é sempre preferido em relação ao replaceByKey

Remover partições vazias do Spark RDD

Inicialize um RDD para esvaziar

Você é muito ativo! É ótimo!

Resultados da pesquisa a pedido "rdd"

Tags populares