Resultados da pesquisa a pedido "pyspark"

1 a resposta

toPandas () erro usando pyspark: objeto 'int' não é iterável

Eu tenho um dataframe pyspark e estou tentando convertê-lo em pandas usando toPandas (), no entanto, estou executando o erro abaixo mencionado. Tentei opções diferentes, mas obtive o mesmo erro: 1) limitar os dados a apenas alguns registros 2) ...

2 a resposta

Como o Spark interopera com o CPython

Eu tenho um sistema Akka escrito emscala que precisa chamar a algunsPython código, contando comPandas eNumpy, então não posso simplesmente usar o Jython. Notei que o Spark usa o CPython em seus nós de trabalho, por isso estou curioso para saber ...

1 a resposta

Como filtrar o dstream usando a operação de transformação e o RDD externo?

eu useitransform método em um caso de uso semelhante ao descrito emOperação de transformaçãoSeção deTransformações no DStreams [https://spark.apache.org/docs/1.4.0/streaming-programming-guide.html#transformations-on-dstreams] : spamInfoRDD = ...

1 a resposta

Gravação do Spark rdd na lista global

Como escrever na lista global com rdd? Li = [] Fn(list): If list.value == 4: Li.append(1) rdd.mapValues(lambda x:fn(x)) Quando tento imprimir Li, o resultado é: [] O que estou tentando fazer é transformar outra lista global Li1 ...

1 a resposta

Problema com o UDF em uma coluna de vetores no PySpark DataFrame

Estou tendo problemas para usar um UDF em uma coluna de vetores no PySpark, que pode ser ilustrada aqui: from pyspark import SparkContext from pyspark.sql import Row from pyspark.sql.types import DoubleType from pyspark.sql.functions import udf ...

2 a resposta

Como configurar o Pyspark no Python 3 com spark-env.sh.template

Como eu tenho esse problema no meu notebook ipython3, acho que preciso alterar "spark-env.sh.template" de alguma forma. Exceção: Python no trabalhador tem uma versão 2.7 diferente da do driver 3.4, o PySpark não pode ser executado com diferentes ...

3 a resposta

Como usar a fonte JDBC para gravar e ler dados no (Py) Spark?

O objetivo desta pergunta é documentar: etapas necessárias para ler e gravar dados usando conexões JDBC no PySpark possíveis problemas com fontes JDBC e soluções conhecidas Com pequenas alterações, esses métodos devem funcionar com outros ...

2 a resposta

remover duplicatas de um quadro de dados no pyspark

Estou mexendo com quadros de dados no pyspark 1.4 localmente e estou tendo problemas para que o método drop duplicates funcione. Continua retornando o erro "AttributeError: o objeto 'list' não tem atributo 'dropDuplicates'". Não sei ao certo por ...

7 a resposta

Spark 1.4 aumenta a memória maxResultSize

Estou usando o Spark 1.4 para minha pesquisa e lutando com as configurações de memória. Minha máquina possui 16 GB de memória, portanto não há problema, pois o tamanho do meu arquivo é de apenas 300 MB. Embora, quando eu tento converter Spark RDD ...

3 a resposta

Mapa de pyspark em pandas

Existe uma operação em pandas que faz o mesmo queflatMap [http://spark.apache.org/docs/latest/api/python/pyspark.html#pyspark.RDD.flatMap] no pyspark? exemplo flatMap: >>> rdd = sc.parallelize([2, 3, 4]) >>> sorted(rdd.flatMap(lambda x: ...