Resultados da pesquisa a pedido "pyspark"

1 a resposta

Por que meu Spark é mais lento que o Python puro? Comparação de desempenho

Acenda o novato aqui. Tentei fazer alguma ação dos pandas no meu quadro de dados usando o Spark e, surpreendentemente, é mais lento que o Python puro (ou seja, usando o pacote pandas no Python). Aqui está o que eu fiz: 1) No ...

3 a resposta

erro de faísca ao carregar arquivos do curinga S3

Estou usando o shell pyspark e tentando ler dados do S3 usando o recurso curinga de arquivo do spark, mas estou recebendo o seguinte erro: Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /__ / .__/\_,_/_/ /_/\_\ version 1.2.0 ...

1 a resposta

Como particionar RDIS do pyspark com funções R

import rpy2.robjects as robjects dffunc = sc.parallelize([(0,robjects.r.rnorm),(1,robjects.r.runif)]) dffunc.collect() Saídas [(0, <rpy2.rinterface.SexpClosure - Python:0x7f2ecfc28618 / R:0x26abd18>), (1, <rpy2.rinterface.SexpClosure - ...

11 a resposta

Como vincular o PyCharm ao PySpark?

Eu sou novo no apache spark e, aparentemente, instalei o apache-spark com homebrew no meu macbook: Last login: Fri Jan 8 12:52:04 on console user@MacBook-Pro-de-User-2:~$ pyspark Python 2.7.10 (default, Jul 13 2015, 12:05:58) [GCC 4.2.1 ...

4 a resposta

Como calcular a soma acumulada usando sqlContext

Eu sei que podemos usarFunção de janela no pyspark [https://databricks.com/blog/2015/07/15/introducing-window-functions-in-spark-sql.html] para calcular a soma acumulada. Mas Window é suportado apenas no HiveContext e não no SQLContext. Preciso ...

3 a resposta

Pyspark DataFrame UDF na coluna de texto

Estou tentando fazer algum texto de PNL limpar algumas colunas Unicode em um PySpark DataFrame. Eu tentei no Spark 1.3, 1.5 e 1.6 e parece que não consigo fazer as coisas funcionarem pela minha vida. Eu também tentei usar o Python 2.7 e o Python ...

2 a resposta

Spark Execução do arquivo TB na memória

Vamos supor que eu tenho um arquivo de dados Tb. Cada memória do nó no cluster de dez nós é de 3 GB. Quero processar o arquivo usando o spark. Mas como o One TeraByte se encaixa na memória? Será que vai lançar exceção de memória? Como funciona?

3 a resposta

Enquanto envia um trabalho com o pyspark, como acessar o upload de arquivos estáticos com o argumento --files?

por exemplo, eu tenho uma pasta: / - test.py - test.ymle o trabalho é enviado ao spark cluster com: gcloud beta dataproc jobs submit pyspark --files=test.yml "test.py" notest.py, Desejo acessar o arquivo estático que carreguei. with ...

1 a resposta

Função Strip ou Regex no Spark 1.3 Dataframe

Eu tenho algum código do PySpark 1.5 que infelizmente tenho que portar para o Spark 1.3. Eu tenho uma coluna com elementos que são alfanuméricos, mas quero apenas os dígitos. Um exemplo dos elementos em 'old_col' de 'df' são: '125 Bytes'No Spark ...

1 a resposta

Crie o DataFrame da lista de tuplas usando o pyspark

Estou trabalhando com dados extraídos do SFDC usando o pacote simple-salesforce. Estou usando o Python3 para scripts e o Spark 1.5.2. Eu criei um rdd contendo os seguintes dados: [('Id', 'a0w1a0000003xB1A'), ('PackSize', 1.0), ('Name', 'A')] ...