Resultados da pesquisa a pedido "pyspark"
Conecte-se aos dados S3 do PySpark
Estou tentando ler um arquivo JSON, do Amazon s3, para criar um contexto de faísca e usá-lo para processar os dados. O Spark está basicamente em um contêiner de encaixe. Portanto, colocar arquivos no caminho do docker também é PITA. Por isso, ...
Como melhorar o desempenho de tarefas lentas do Spark usando a conexão DataFrame e JDBC?
Estou tentando acessar uma tabela Teradata de tamanho médio (~ 100 milhões de linhas) via JDBC no modo autônomo em um único nó (local [*]). Estou usando o Spark 1.4.1. e é configurado em uma máquina muito poderosa (2 cpu, 24 núcleos, 126G ...
java.io.IOException: Não é possível executar o programa “python” usando o Spark no Pycharm (Windows)
Estou tentando escrever um código muito simples usando o Spark no Pycharm e meu sistema operacional é o Windows 8. Tenho lidado com vários problemas que de alguma forma conseguiram corrigir, exceto um. Quando executo o código usando pyspark.cmd, ...
Gravar dados no Redis do PySpark
Em Scala, escreveríamos um RDD para Redis assim: datardd.foreachPartition(iter => { val r = new RedisClient("hosturl", 6379) iter.foreach(i => { val (str, it) = i val map = it.toMap r.hmset(str, map) }) }) Eu tentei fazer isso no PySpark ...
como alterar uma coluna Dataframe do tipo String para Double type no pyspark
Eu tenho um quadro de dados com coluna como String. Eu queria mudar o tipo de coluna para Double type no PySpark. A seguir está o caminho, eu fiz: toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf ...
Como alterar as propriedades do SparkContext na sessão do Interactive PySpark
Como posso alterar o spark.driver.maxResultSize no shell interativo pyspark? Eu usei o seguinte código from pyspark import SparkConf, SparkContext conf = (SparkConf() .set("spark.driver.maxResultSize", "10g")) sc.stop() sc=SparkContext(conf)mas ...
Como processar RDDs usando uma classe Python?
Estou implementando um modelo no Spark como uma classe python e sempre que tento mapear um método de classe para um RDD, ele falha. Meu código atual é mais complicado, mas esta versão simplificada está no centro do problema: class model(object): ...
O pushdown de predicado de faísca funciona com o JDBC?
De acordo comesta [https://databricks.com/blog/2015/02/17/introducing-dataframes-in-spark-for-large-scale-data-science.html] O Catalyst aplica otimizações lógicas, como pushdown de predicado. O otimizador pode enviar predicados de filtro para ...
PySpark: calcule a média de uma coluna após usar a função de filtro
Estou usando o código a seguir para obter a idade média de pessoas cujo salário é superior a algum limite. dataframe.filter(df['salary'] > 100000).agg({"avg": "age"})a idade da coluna é numérica (flutuante), mas ainda estou recebendo esse ...
SparkSQL - Função Lag?
Eu vejo nissoPostagem do DataBricks [https://databricks.com/blog/2015/07/15/introducing-window-functions-in-spark-sql.html] , há suporte para funções de janela no SparkSql, em particular, estou tentando usar a função de janela lag (). Eu tenho ...