Resultados da pesquisa a pedido "apache-spark"
Por que o shell-spark falha com NullPointerException?
Eu tento executarspark-shell no Windows 10, mas continuo recebendo esse erro toda vez que o executo. Eu usei as versões mais recente e spark-1.5.0-bin-hadoop2.4. 15/09/22 18:46:24 WARN Connection: BoneCP specified but not present in ...
Acesso ao Spark a partir do aplicativo Flask
Eu escrevi um aplicativo Flask simples para passar alguns dados para o Spark. O script funciona no IPython Notebook, mas não quando tento executá-lo em seu próprio servidor. Eu não acho que o contexto do Spark esteja sendo executado dentro do ...
Adivinhador de tipo de dados Spark UDAF
Queria levar algo assim https://github.com/fitzscott/AirQuality/blob/master/HiveDataTypeGuesser.java [https://github.com/fitzscott/AirQuality/blob/master/HiveDataTypeGuesser.java]e crie um Hive UDAF para criar uma função agregada que retorna uma ...
Crie o Spark DataFrame. Não é possível inferir o esquema para o tipo: <type 'float'>
Alguém poderia me ajudar a resolver esse problema que tenho com o Spark DataFrame? Quando eu façomyFloatRDD.toDF() Eu recebo um erro: TypeError: Não é possível inferir o esquema para o tipo: type 'float' Não entendo o porquê ...
Como converter um RDD com uma coluna SparseVector em um DataFrame com uma coluna como Vector
eu tenho umRDDcom uma tupla de valores (String, SparseVector) e quero criar um Quadro de dadosusando oRDD. Para obter um (label: string, features: vector) Quadro de dadosque é o esquema exigido pela maioria das bibliotecas do algoritmo ml. Eu sei ...
PySpark DataFrames - maneira de enumerar sem converter para Pandas?
Eu tenho um grandepyspark.sql.dataframe.DataFramechamado df. Eu preciso de alguma maneira de enumerar registros, portanto, ser capaz de acessar registros com determinado índice. (ou selecione um grupo de registros com intervalo de índices) Nos ...
Como usar funções de janela no PySpark usando DataFrames?
Tentando descobrir como usar as funções da janela no PySpark. Aqui está um exemplo do que eu gostaria de fazer, basta contar o número de vezes que um usuário tem um "evento" (nesse caso, "dt" é um carimbo de data / hora simulado). from ...
Converter um RDD em iterável: PySpark?
Eu tenho um RDD que estou criando carregando um arquivo de texto e pré-processando-o. Eu não quero coletá-lo e salvá-lo no disco ou na memória (dados inteiros), mas quero transmiti-lo para alguma outra função em python que consome dados um após o ...
Como é possível listar todos os arquivos csv em um local HDFS no shell Spark Scala?
O objetivo disso é manipular e salvar uma cópia de cada arquivo de dados em um segundo local no HDFS. Eu vou estar usando RddName.coalesce(1).saveAsTextFile(pathName)para salvar o resultado no HDFS. É por isso que quero fazer cada arquivo ...
O objeto 'PipelinedRDD' não possui atributo 'toDF' no PySpark
Estou tentando carregar um arquivo SVM e convertê-lo em umDataFrame para que eu possa usar o módulo ML (Pipeline ML) da Spark. Acabei de instalar um novo Spark 1.5.0 em um Ubuntu 14.04 (nãospark-env.sh configurado). Minhasmy_script.py é: from ...