Resultados da pesquisa a pedido "pyspark"

1 a resposta

Spark mllib prevendo número estranho ou NaN

Eu sou novo no Apache Spark e estou tentando usar a biblioteca de aprendizado de máquina para prever alguns dados. Meu conjunto de dados agora é de apenas cerca de 350 pontos. Aqui estão 7 desses pontos: "365","4",41401.387,5330569 ...

1 a resposta

Como passar arquivos para o nó principal?

Eu já escrevi código em python para implementar a classificação binária e quero paralelizar esse processo de classificação com base em diferentes arquivos de dados no meu computador local usando o Apache-Spark. Eu já fiz as seguintes etapas: Eu ...

1 a resposta

PySpark, importando esquema através do arquivo JSON

tbschema.json se parece com isso: [{"TICKET":"integer","TRANFERRED":"string","ACCOUNT":"STRING"}]Carrego-o usando o seguinte código >>> df2 = sqlContext.jsonFile("tbschema.json") >>> ...

1 a resposta

Problema ao criar uma lista global a partir do mapa usando o PySpark

Eu tenho esse código em que estou lendo um arquivoipython usandopyspark. O que estou tentando fazer é adicionar um pedaço a ele, que forma uma lista com base em uma coluna específica lida no arquivo, mas quando tento executá-lo, a lista fica ...

1 a resposta

Databricks (Spark): dependências .egg não instaladas automaticamente?

Eu tenho um criado localmente.egg pacote que dependeboto==2.38.0. Eu usei setuptools para criar a distribuição de build. Tudo funciona no meu próprio ambiente local, pois ele buscaboto corretamente dePiP. No entantodatabricks ele não busca ...

1 a resposta

Gravar dados no Redis do PySpark

Em Scala, escreveríamos um RDD para Redis assim: datardd.foreachPartition(iter => { val r = new RedisClient("hosturl", 6379) iter.foreach(i => { val (str, it) = i val map = it.toMap r.hmset(str, map) }) }) Eu tentei fazer isso no PySpark ...

1 a resposta

Como processar RDDs usando uma classe Python?

Estou implementando um modelo no Spark como uma classe python e sempre que tento mapear um método de classe para um RDD, ele falha. Meu código atual é mais complicado, mas esta versão simplificada está no centro do problema: class model(object): ...

1 a resposta

PySpark: calcule a média de uma coluna após usar a função de filtro

Estou usando o código a seguir para obter a idade média de pessoas cujo salário é superior a algum limite. dataframe.filter(df['salary'] > 100000).agg({"avg": "age"})a idade da coluna é numérica (flutuante), mas ainda estou recebendo esse ...

1 a resposta

SparkSQL - Função Lag?

Eu vejo nissoPostagem do DataBricks [https://databricks.com/blog/2015/07/15/introducing-window-functions-in-spark-sql.html] , há suporte para funções de janela no SparkSql, em particular, estou tentando usar a função de janela lag (). Eu tenho ...

1 a resposta

Passando funções de classe para o PySpark RDD

Eu tenho uma classe chamada some_class () em um arquivo Python aqui: /some-folder/app/bin/file.pyEstou importando-o para o meu código aqui: /some-folder2/app/code/file2.pyPor import sys sys.path.append('/some-folder/app/bin') from file import ...