Resultados da pesquisa a pedido "pyspark"
Por que meu Spark é mais lento que o Python puro? Comparação de desempenho
Acenda o novato aqui. Tentei fazer alguma ação dos pandas no meu quadro de dados usando o Spark e, surpreendentemente, é mais lento que o Python puro (ou seja, usando o pacote pandas no Python). Aqui está o que eu fiz: 1) No ...
erro de faísca ao carregar arquivos do curinga S3
Estou usando o shell pyspark e tentando ler dados do S3 usando o recurso curinga de arquivo do spark, mas estou recebendo o seguinte erro: Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /__ / .__/\_,_/_/ /_/\_\ version 1.2.0 ...
Como particionar RDIS do pyspark com funções R
import rpy2.robjects as robjects dffunc = sc.parallelize([(0,robjects.r.rnorm),(1,robjects.r.runif)]) dffunc.collect() Saídas [(0, <rpy2.rinterface.SexpClosure - Python:0x7f2ecfc28618 / R:0x26abd18>), (1, <rpy2.rinterface.SexpClosure - ...
Como vincular o PyCharm ao PySpark?
Eu sou novo no apache spark e, aparentemente, instalei o apache-spark com homebrew no meu macbook: Last login: Fri Jan 8 12:52:04 on console user@MacBook-Pro-de-User-2:~$ pyspark Python 2.7.10 (default, Jul 13 2015, 12:05:58) [GCC 4.2.1 ...
Como calcular a soma acumulada usando sqlContext
Eu sei que podemos usarFunção de janela no pyspark [https://databricks.com/blog/2015/07/15/introducing-window-functions-in-spark-sql.html] para calcular a soma acumulada. Mas Window é suportado apenas no HiveContext e não no SQLContext. Preciso ...
Pyspark DataFrame UDF na coluna de texto
Estou tentando fazer algum texto de PNL limpar algumas colunas Unicode em um PySpark DataFrame. Eu tentei no Spark 1.3, 1.5 e 1.6 e parece que não consigo fazer as coisas funcionarem pela minha vida. Eu também tentei usar o Python 2.7 e o Python ...
Spark Execução do arquivo TB na memória
Vamos supor que eu tenho um arquivo de dados Tb. Cada memória do nó no cluster de dez nós é de 3 GB. Quero processar o arquivo usando o spark. Mas como o One TeraByte se encaixa na memória? Será que vai lançar exceção de memória? Como funciona?
Enquanto envia um trabalho com o pyspark, como acessar o upload de arquivos estáticos com o argumento --files?
por exemplo, eu tenho uma pasta: / - test.py - test.ymle o trabalho é enviado ao spark cluster com: gcloud beta dataproc jobs submit pyspark --files=test.yml "test.py" notest.py, Desejo acessar o arquivo estático que carreguei. with ...
Função Strip ou Regex no Spark 1.3 Dataframe
Eu tenho algum código do PySpark 1.5 que infelizmente tenho que portar para o Spark 1.3. Eu tenho uma coluna com elementos que são alfanuméricos, mas quero apenas os dígitos. Um exemplo dos elementos em 'old_col' de 'df' são: '125 Bytes'No Spark ...
Crie o DataFrame da lista de tuplas usando o pyspark
Estou trabalhando com dados extraídos do SFDC usando o pacote simple-salesforce. Estou usando o Python3 para scripts e o Spark 1.5.2. Eu criei um rdd contendo os seguintes dados: [('Id', 'a0w1a0000003xB1A'), ('PackSize', 1.0), ('Name', 'A')] ...