Resultados da pesquisa a pedido "pyspark"

1 a resposta

Problema com o UDF em uma coluna de vetores no PySpark DataFrame

Estou tendo problemas para usar um UDF em uma coluna de vetores no PySpark, que pode ser ilustrada aqui: from pyspark import SparkContext from pyspark.sql import Row from pyspark.sql.types import DoubleType from pyspark.sql.functions import udf ...

2 a resposta

Como configurar o Pyspark no Python 3 com spark-env.sh.template

Como eu tenho esse problema no meu notebook ipython3, acho que preciso alterar "spark-env.sh.template" de alguma forma. Exceção: Python no trabalhador tem uma versão 2.7 diferente da do driver 3.4, o PySpark não pode ser executado com diferentes ...

3 a resposta

Como usar a fonte JDBC para gravar e ler dados no (Py) Spark?

O objetivo desta pergunta é documentar: etapas necessárias para ler e gravar dados usando conexões JDBC no PySpark possíveis problemas com fontes JDBC e soluções conhecidas Com pequenas alterações, esses métodos devem funcionar com outros ...

7 a resposta

Spark 1.4 aumenta a memória maxResultSize

Estou usando o Spark 1.4 para minha pesquisa e lutando com as configurações de memória. Minha máquina possui 16 GB de memória, portanto não há problema, pois o tamanho do meu arquivo é de apenas 300 MB. Embora, quando eu tento converter Spark RDD ...

2 a resposta

remover duplicatas de um quadro de dados no pyspark

Estou mexendo com quadros de dados no pyspark 1.4 localmente e estou tendo problemas para que o método drop duplicates funcione. Continua retornando o erro "AttributeError: o objeto 'list' não tem atributo 'dropDuplicates'". Não sei ao certo por ...

3 a resposta

Mapa de pyspark em pandas

Existe uma operação em pandas que faz o mesmo queflatMap [http://spark.apache.org/docs/latest/api/python/pyspark.html#pyspark.RDD.flatMap] no pyspark? exemplo flatMap: >>> rdd = sc.parallelize([2, 3, 4]) >>> sorted(rdd.flatMap(lambda x: ...

1 a resposta

PySpark - Sobreposição de tempo para objeto no RDD

Meu objetivo é agrupar objetos com base na sobreposição de tempo. Cada objeto no meurdd contém umstart_time eend_time. Provavelmente, estou lidando com isso de maneira ineficiente, mas o que estou planejando fazer é atribuir um ID de ...

1 a resposta

criando estrutura de dados spark a partir de registros multilinhas

Estou tentando ler o arquivo de evento de retrospectiva no spark. O arquivo de evento está estruturado como tal. id,TEX201403310 version,2 info,visteam,PHI info,hometeam,TEX info,site,ARL02 info,date,2014/03/31 info,number,0 ...

1 a resposta

Uma lista como chave para o reduzaByKey do PySpark

Eu estou tentando chamar a função reduzirByKey do pyspark nos dados do formato(([a,b,c], 1), ([a,b,c], 1), ([a,d,b,e], 1), ... Parece que o pyspark não aceitará uma matriz como a chave na chave normal, redução de valor simplesmente aplicando ...

4 a resposta

Como encontrar medianas e quantis usando o Spark

Como posso encontrar a mediana de umRDD de números inteiros usando um método distribuído, IPython e Spark? oRDD é de aproximadamente 700.000 elementos e, portanto, muito grande para coletar e encontrar a mediana. Esta pergunta é semelhante a ...