Resultados da pesquisa a pedido "pyspark"
Passando funções de classe para o PySpark RDD
Eu tenho uma classe chamada some_class () em um arquivo Python aqui: /some-folder/app/bin/file.pyEstou importando-o para o meu código aqui: /some-folder2/app/code/file2.pyPor import sys sys.path.append('/some-folder/app/bin') from file import ...
Spark DataFrame: Computando a média em linhas (ou qualquer operação agregada)
Eu tenho um Spark DataFrame carregado na memória e quero levar a média (ou qualquer operação agregada) sobre as colunas. Como eu faria isso? (Nonumpy, isso é conhecido como assumir uma operaçãoaxis=1) Se alguém estivesse calculando a média do ...
Acesso ao Spark a partir do aplicativo Flask
Eu escrevi um aplicativo Flask simples para passar alguns dados para o Spark. O script funciona no IPython Notebook, mas não quando tento executá-lo em seu próprio servidor. Eu não acho que o contexto do Spark esteja sendo executado dentro do ...
Crie o Spark DataFrame. Não é possível inferir o esquema para o tipo: <type 'float'>
Alguém poderia me ajudar a resolver esse problema que tenho com o Spark DataFrame? Quando eu façomyFloatRDD.toDF() Eu recebo um erro: TypeError: Não é possível inferir o esquema para o tipo: type 'float' Não entendo o porquê ...
Como converter um RDD com uma coluna SparseVector em um DataFrame com uma coluna como Vector
eu tenho umRDDcom uma tupla de valores (String, SparseVector) e quero criar um Quadro de dadosusando oRDD. Para obter um (label: string, features: vector) Quadro de dadosque é o esquema exigido pela maioria das bibliotecas do algoritmo ml. Eu sei ...
Converter um RDD em iterável: PySpark?
Eu tenho um RDD que estou criando carregando um arquivo de texto e pré-processando-o. Eu não quero coletá-lo e salvá-lo no disco ou na memória (dados inteiros), mas quero transmiti-lo para alguma outra função em python que consome dados um após o ...
O objeto 'PipelinedRDD' não possui atributo 'toDF' no PySpark
Estou tentando carregar um arquivo SVM e convertê-lo em umDataFrame para que eu possa usar o módulo ML (Pipeline ML) da Spark. Acabei de instalar um novo Spark 1.5.0 em um Ubuntu 14.04 (nãospark-env.sh configurado). Minhasmy_script.py é: from ...
Como adicionar uma coluna constante em um Spark DataFrame?
Eu quero adicionar uma coluna em umDataFrame com algum valor arbitrário (que é o mesmo para cada linha). Eu recebo um erro quando usowithColumn do seguinte modo: dt.withColumn('new_column', ...
PySpark DataFrames - maneira de enumerar sem converter para Pandas?
Eu tenho um grandepyspark.sql.dataframe.DataFramechamado df. Eu preciso de alguma maneira de enumerar registros, portanto, ser capaz de acessar registros com determinado índice. (ou selecione um grupo de registros com intervalo de índices) Nos ...
Como posso alterar a configuração SparkContext.sparkUser () (no pyspark)?
Eu sou novo comSpark epyspark. Eu uso o pyspark, depois da minhardd processamento, tentei salvá-lo emhdfs usando osaveAsTextfile() função. Mas eu recebo um 'permissão negada'mensagem de erro porque o pyspark tenta gravarhdfs usando minha conta ...