Resultados da pesquisa a pedido "pyspark"
toPandas () erro usando pyspark: objeto 'int' não é iterável
Eu tenho um dataframe pyspark e estou tentando convertê-lo em pandas usando toPandas (), no entanto, estou executando o erro abaixo mencionado. Tentei opções diferentes, mas obtive o mesmo erro: 1) limitar os dados a apenas alguns registros 2) ...
Como o Spark interopera com o CPython
Eu tenho um sistema Akka escrito emscala que precisa chamar a algunsPython código, contando comPandas eNumpy, então não posso simplesmente usar o Jython. Notei que o Spark usa o CPython em seus nós de trabalho, por isso estou curioso para saber ...
Como filtrar o dstream usando a operação de transformação e o RDD externo?
eu useitransform método em um caso de uso semelhante ao descrito emOperação de transformaçãoSeção deTransformações no DStreams [https://spark.apache.org/docs/1.4.0/streaming-programming-guide.html#transformations-on-dstreams] : spamInfoRDD = ...
Gravação do Spark rdd na lista global
Como escrever na lista global com rdd? Li = [] Fn(list): If list.value == 4: Li.append(1) rdd.mapValues(lambda x:fn(x)) Quando tento imprimir Li, o resultado é: [] O que estou tentando fazer é transformar outra lista global Li1 ...
Problema com o UDF em uma coluna de vetores no PySpark DataFrame
Estou tendo problemas para usar um UDF em uma coluna de vetores no PySpark, que pode ser ilustrada aqui: from pyspark import SparkContext from pyspark.sql import Row from pyspark.sql.types import DoubleType from pyspark.sql.functions import udf ...
Como configurar o Pyspark no Python 3 com spark-env.sh.template
Como eu tenho esse problema no meu notebook ipython3, acho que preciso alterar "spark-env.sh.template" de alguma forma. Exceção: Python no trabalhador tem uma versão 2.7 diferente da do driver 3.4, o PySpark não pode ser executado com diferentes ...
Como usar a fonte JDBC para gravar e ler dados no (Py) Spark?
O objetivo desta pergunta é documentar: etapas necessárias para ler e gravar dados usando conexões JDBC no PySpark possíveis problemas com fontes JDBC e soluções conhecidas Com pequenas alterações, esses métodos devem funcionar com outros ...
remover duplicatas de um quadro de dados no pyspark
Estou mexendo com quadros de dados no pyspark 1.4 localmente e estou tendo problemas para que o método drop duplicates funcione. Continua retornando o erro "AttributeError: o objeto 'list' não tem atributo 'dropDuplicates'". Não sei ao certo por ...
Spark 1.4 aumenta a memória maxResultSize
Estou usando o Spark 1.4 para minha pesquisa e lutando com as configurações de memória. Minha máquina possui 16 GB de memória, portanto não há problema, pois o tamanho do meu arquivo é de apenas 300 MB. Embora, quando eu tento converter Spark RDD ...
Mapa de pyspark em pandas
Existe uma operação em pandas que faz o mesmo queflatMap [http://spark.apache.org/docs/latest/api/python/pyspark.html#pyspark.RDD.flatMap] no pyspark? exemplo flatMap: >>> rdd = sc.parallelize([2, 3, 4]) >>> sorted(rdd.flatMap(lambda x: ...