Resultados da pesquisa a pedido "pyspark"

1 a resposta

Passando funções de classe para o PySpark RDD

Eu tenho uma classe chamada some_class () em um arquivo Python aqui: /some-folder/app/bin/file.pyEstou importando-o para o meu código aqui: /some-folder2/app/code/file2.pyPor import sys sys.path.append('/some-folder/app/bin') from file import ...

2 a resposta

Spark DataFrame: Computando a média em linhas (ou qualquer operação agregada)

Eu tenho um Spark DataFrame carregado na memória e quero levar a média (ou qualquer operação agregada) sobre as colunas. Como eu faria isso? (Nonumpy, isso é conhecido como assumir uma operaçãoaxis=1) Se alguém estivesse calculando a média do ...

3 a resposta

Acesso ao Spark a partir do aplicativo Flask

Eu escrevi um aplicativo Flask simples para passar alguns dados para o Spark. O script funciona no IPython Notebook, mas não quando tento executá-lo em seu próprio servidor. Eu não acho que o contexto do Spark esteja sendo executado dentro do ...

1 a resposta

Crie o Spark DataFrame. Não é possível inferir o esquema para o tipo: <type 'float'>

Alguém poderia me ajudar a resolver esse problema que tenho com o Spark DataFrame? Quando eu façomyFloatRDD.toDF() Eu recebo um erro: TypeError: Não é possível inferir o esquema para o tipo: type 'float' Não entendo o porquê ...

3 a resposta

Como converter um RDD com uma coluna SparseVector em um DataFrame com uma coluna como Vector

eu tenho umRDDcom uma tupla de valores (String, SparseVector) e quero criar um Quadro de dadosusando oRDD. Para obter um (label: string, features: vector) Quadro de dadosque é o esquema exigido pela maioria das bibliotecas do algoritmo ml. Eu sei ...

2 a resposta

Converter um RDD em iterável: PySpark?

Eu tenho um RDD que estou criando carregando um arquivo de texto e pré-processando-o. Eu não quero coletá-lo e salvá-lo no disco ou na memória (dados inteiros), mas quero transmiti-lo para alguma outra função em python que consome dados um após o ...

1 a resposta

O objeto 'PipelinedRDD' não possui atributo 'toDF' no PySpark

Estou tentando carregar um arquivo SVM e convertê-lo em umDataFrame para que eu possa usar o módulo ML (Pipeline ML) da Spark. Acabei de instalar um novo Spark 1.5.0 em um Ubuntu 14.04 (nãospark-env.sh configurado). Minhasmy_script.py é: from ...

3 a resposta

Como adicionar uma coluna constante em um Spark DataFrame?

Eu quero adicionar uma coluna em umDataFrame com algum valor arbitrário (que é o mesmo para cada linha). Eu recebo um erro quando usowithColumn do seguinte modo: dt.withColumn('new_column', ...

5 a resposta

PySpark DataFrames - maneira de enumerar sem converter para Pandas?

Eu tenho um grandepyspark.sql.dataframe.DataFramechamado df. Eu preciso de alguma maneira de enumerar registros, portanto, ser capaz de acessar registros com determinado índice. (ou selecione um grupo de registros com intervalo de índices) Nos ...

2 a resposta

Como posso alterar a configuração SparkContext.sparkUser () (no pyspark)?

Eu sou novo comSpark epyspark. Eu uso o pyspark, depois da minhardd processamento, tentei salvá-lo emhdfs usando osaveAsTextfile() função. Mas eu recebo um 'permissão negada'mensagem de erro porque o pyspark tenta gravarhdfs usando minha conta ...