Resultados da pesquisa a pedido "pyspark"

2 a resposta

Conecte-se aos dados S3 do PySpark

Estou tentando ler um arquivo JSON, do Amazon s3, para criar um contexto de faísca e usá-lo para processar os dados. O Spark está basicamente em um contêiner de encaixe. Portanto, colocar arquivos no caminho do docker também é PITA. Por isso, ...

2 a resposta

Como melhorar o desempenho de tarefas lentas do Spark usando a conexão DataFrame e JDBC?

Estou tentando acessar uma tabela Teradata de tamanho médio (~ 100 milhões de linhas) via JDBC no modo autônomo em um único nó (local [*]). Estou usando o Spark 1.4.1. e é configurado em uma máquina muito poderosa (2 cpu, 24 núcleos, 126G ...

4 a resposta

java.io.IOException: Não é possível executar o programa “python” usando o Spark no Pycharm (Windows)

Estou tentando escrever um código muito simples usando o Spark no Pycharm e meu sistema operacional é o Windows 8. Tenho lidado com vários problemas que de alguma forma conseguiram corrigir, exceto um. Quando executo o código usando pyspark.cmd, ...

1 a resposta

Gravar dados no Redis do PySpark

Em Scala, escreveríamos um RDD para Redis assim: datardd.foreachPartition(iter => { val r = new RedisClient("hosturl", 6379) iter.foreach(i => { val (str, it) = i val map = it.toMap r.hmset(str, map) }) }) Eu tentei fazer isso no PySpark ...

4 a resposta

como alterar uma coluna Dataframe do tipo String para Double type no pyspark

Eu tenho um quadro de dados com coluna como String. Eu queria mudar o tipo de coluna para Double type no PySpark. A seguir está o caminho, eu fiz: toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf ...

3 a resposta

Como alterar as propriedades do SparkContext na sessão do Interactive PySpark

Como posso alterar o spark.driver.maxResultSize no shell interativo pyspark? Eu usei o seguinte código from pyspark import SparkConf, SparkContext conf = (SparkConf() .set("spark.driver.maxResultSize", "10g")) sc.stop() sc=SparkContext(conf)mas ...

1 a resposta

Como processar RDDs usando uma classe Python?

Estou implementando um modelo no Spark como uma classe python e sempre que tento mapear um método de classe para um RDD, ele falha. Meu código atual é mais complicado, mas esta versão simplificada está no centro do problema: class model(object): ...

1 a resposta

O pushdown de predicado de faísca funciona com o JDBC?

De acordo comesta [https://databricks.com/blog/2015/02/17/introducing-dataframes-in-spark-for-large-scale-data-science.html] O Catalyst aplica otimizações lógicas, como pushdown de predicado. O otimizador pode enviar predicados de filtro para ...

1 a resposta

PySpark: calcule a média de uma coluna após usar a função de filtro

Estou usando o código a seguir para obter a idade média de pessoas cujo salário é superior a algum limite. dataframe.filter(df['salary'] > 100000).agg({"avg": "age"})a idade da coluna é numérica (flutuante), mas ainda estou recebendo esse ...

1 a resposta

SparkSQL - Função Lag?

Eu vejo nissoPostagem do DataBricks [https://databricks.com/blog/2015/07/15/introducing-window-functions-in-spark-sql.html] , há suporte para funções de janela no SparkSql, em particular, estou tentando usar a função de janela lag (). Eu tenho ...