Resultados da pesquisa a pedido "pyspark"

1 a resposta

Spark MLlib - trainImplicit warning

Eu continuo vendo esses avisos ao usartrainImplicit: WARN TaskSetManager: Stage 246 contains a task of very large size (208 KB). The maximum recommended task size is 100 KB.E então o tamanho da tarefa começa a aumentar. eu tentei ...

1 a resposta

Gravação do Spark rdd na lista global

Como escrever na lista global com rdd? Li = [] Fn(list): If list.value == 4: Li.append(1) rdd.mapValues(lambda x:fn(x)) Quando tento imprimir Li, o resultado é: [] O que estou tentando fazer é transformar outra lista global Li1 ...

1 a resposta

Como filtrar o dstream usando a operação de transformação e o RDD externo?

eu useitransform método em um caso de uso semelhante ao descrito emOperação de transformaçãoSeção deTransformações no DStreams [https://spark.apache.org/docs/1.4.0/streaming-programming-guide.html#transformations-on-dstreams] : spamInfoRDD = ...

1 a resposta

Problema com o UDF em uma coluna de vetores no PySpark DataFrame

Estou tendo problemas para usar um UDF em uma coluna de vetores no PySpark, que pode ser ilustrada aqui: from pyspark import SparkContext from pyspark.sql import Row from pyspark.sql.types import DoubleType from pyspark.sql.functions import udf ...

1 a resposta

PySpark - Sobreposição de tempo para objeto no RDD

Meu objetivo é agrupar objetos com base na sobreposição de tempo. Cada objeto no meurdd contém umstart_time eend_time. Provavelmente, estou lidando com isso de maneira ineficiente, mas o que estou planejando fazer é atribuir um ID de ...

1 a resposta

criando estrutura de dados spark a partir de registros multilinhas

Estou tentando ler o arquivo de evento de retrospectiva no spark. O arquivo de evento está estruturado como tal. id,TEX201403310 version,2 info,visteam,PHI info,hometeam,TEX info,site,ARL02 info,date,2014/03/31 info,number,0 ...

1 a resposta

Uma lista como chave para o reduzaByKey do PySpark

Eu estou tentando chamar a função reduzirByKey do pyspark nos dados do formato(([a,b,c], 1), ([a,b,c], 1), ([a,d,b,e], 1), ... Parece que o pyspark não aceitará uma matriz como a chave na chave normal, redução de valor simplesmente aplicando ...

1 a resposta

Como agrupar um RDD, com DenseVector como chave, no Spark?

Eu criei um RDD com cada membro sendo um par de valor-chave e a chave sendo umDenseVector e valor sendo umint. por exemplo. [(DenseVector([3,4]),10), (DenseVector([3,4]),20)]Agora eu quero agrupar pela chavek1: DenseVector([3,4]). Espero que o ...

1 a resposta

O Spark fornece um StackOverflowError ao treinar usando o ALS

Ao tentar treinar um modelo de aprendizado de máquina usando o ALS no MLLib do Spark, continuei recebendo um StackoverflowError. Aqui está uma pequena amostra do rastreamento de pilha: Traceback (most recent call last): File ...

1 a resposta

pyspark seleciona subconjunto de arquivos usando regex / glob do s3

Eu tenho um número de arquivos cada segregados por data(date=yyyymmdd) no amazon s3. Os arquivos retornam 6 meses, mas eu gostaria de restringir meu script para usar apenas os últimos 3 meses de dados. Não tenho certeza se poderei usar expressões ...