Resultados da pesquisa a pedido "pyspark"

Estou tentando ler um arquivo JSON, do Amazon s3, para criar um contexto de faísca e usá-lo para processar os dados. O Spark está basicamente em um contêiner de encaixe. Portanto, colocar arquivos no caminho do docker também é PITA. Por isso, ...

teradata apache-spark spark-dataframe

2 a resposta

Como melhorar o desempenho de tarefas lentas do Spark usando a conexão DataFrame e JDBC?

Estou tentando acessar uma tabela Teradata de tamanho médio (~ 100 milhões de linhas) via JDBC no modo autônomo em um único nó (local [*]). Estou usando o Spark 1.4.1. e é configurado em uma máquina muito poderosa (2 cpu, 24 núcleos, 126G ...

windows pycharm python

4 a resposta

java.io.IOException: Não é possível executar o programa “python” usando o Spark no Pycharm (Windows)

Estou tentando escrever um código muito simples usando o Spark no Pycharm e meu sistema operacional é o Windows 8. Tenho lidado com vários problemas que de alguma forma conseguiram corrigir, exceto um. Quando executo o código usando pyspark.cmd, ...

python apache-spark

1 a resposta

Gravar dados no Redis do PySpark

Em Scala, escreveríamos um RDD para Redis assim: datardd.foreachPartition(iter => { val r = new RedisClient("hosturl", 6379) iter.foreach(i => { val (str, it) = i val map = it.toMap r.hmset(str, map) }) }) Eu tentei fazer isso no PySpark ...

python apache-spark dataframe apache-spark-sql

4 a resposta

como alterar uma coluna Dataframe do tipo String para Double type no pyspark

Eu tenho um quadro de dados com coluna como String. Eu queria mudar o tipo de coluna para Double type no PySpark. A seguir está o caminho, eu fiz: toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf ...

python apache-spark

3 a resposta

Como alterar as propriedades do SparkContext na sessão do Interactive PySpark

Como posso alterar o spark.driver.maxResultSize no shell interativo pyspark? Eu usei o seguinte código from pyspark import SparkConf, SparkContext conf = (SparkConf() .set("spark.driver.maxResultSize", "10g")) sc.stop() sc=SparkContext(conf)mas ...

python apache-spark

1 a resposta

Como processar RDDs usando uma classe Python?

Estou implementando um modelo no Spark como uma classe python e sempre que tento mapear um método de classe para um RDD, ele falha. Meu código atual é mais complicado, mas esta versão simplificada está no centro do problema: class model(object): ...

apache-spark python apache-spark-sql jdbc

1 a resposta

O pushdown de predicado de faísca funciona com o JDBC?

De acordo comesta [https://databricks.com/blog/2015/02/17/introducing-dataframes-in-spark-for-large-scale-data-science.html] O Catalyst aplica otimizações lógicas, como pushdown de predicado. O otimizador pode enviar predicados de filtro para ...

python apache-spark apache-spark-sql pyspark-sql

1 a resposta

PySpark: calcule a média de uma coluna após usar a função de filtro

Estou usando o código a seguir para obter a idade média de pessoas cujo salário é superior a algum limite. dataframe.filter(df['salary'] > 100000).agg({"avg": "age"})a idade da coluna é numérica (flutuante), mas ainda estou recebendo esse ...

sql apache-spark apache-spark-sql window-functions

1 a resposta

SparkSQL - Função Lag?

Eu vejo nissoPostagem do DataBricks [https://databricks.com/blog/2015/07/15/introducing-window-functions-in-spark-sql.html] , há suporte para funções de janela no SparkSql, em particular, estou tentando usar a função de janela lag (). Eu tenho ...

Página 32 do 46

30 313233 34

Resultados da pesquisa a pedido "pyspark"

Conecte-se aos dados S3 do PySpark

Como melhorar o desempenho de tarefas lentas do Spark usando a conexão DataFrame e JDBC?

java.io.IOException: Não é possível executar o programa “python” usando o Spark no Pycharm (Windows)

Tags populares

Gravar dados no Redis do PySpark

como alterar uma coluna Dataframe do tipo String para Double type no pyspark

Como alterar as propriedades do SparkContext na sessão do Interactive PySpark

Como processar RDDs usando uma classe Python?

O pushdown de predicado de faísca funciona com o JDBC?

PySpark: calcule a média de uma coluna após usar a função de filtro

SparkSQL - Função Lag?

Você é muito ativo! É ótimo!

Resultados da pesquisa a pedido "pyspark"

Tags populares