Resultados da pesquisa a pedido "apache-spark"

Eu tento executarspark-shell no Windows 10, mas continuo recebendo esse erro toda vez que o executo. Eu usei as versões mais recente e spark-1.5.0-bin-hadoop2.4. 15/09/22 18:46:24 WARN Connection: BoneCP specified but not present in ...

pyspark python flask

3 a resposta

Acesso ao Spark a partir do aplicativo Flask

Eu escrevi um aplicativo Flask simples para passar alguns dados para o Spark. O script funciona no IPython Notebook, mas não quando tento executá-lo em seu próprio servidor. Eu não acho que o contexto do Spark esteja sendo executado dentro do ...

bigdata apache-spark-mllib machine-learning hive

1 a resposta

Adivinhador de tipo de dados Spark UDAF

Queria levar algo assim https://github.com/fitzscott/AirQuality/blob/master/HiveDataTypeGuesser.java [https://github.com/fitzscott/AirQuality/blob/master/HiveDataTypeGuesser.java]e crie um Hive UDAF para criar uma função agregada que retorna uma ...

dataframe pyspark python apache-spark-sql

1 a resposta

Crie o Spark DataFrame. Não é possível inferir o esquema para o tipo: <type 'float'>

Alguém poderia me ajudar a resolver esse problema que tenho com o Spark DataFrame? Quando eu façomyFloatRDD.toDF() Eu recebo um erro: TypeError: Não é possível inferir o esquema para o tipo: type 'float' Não entendo o porquê ...

apache-spark-ml apache-spark-mllib pyspark apache-spark-sql

3 a resposta

Como converter um RDD com uma coluna SparseVector em um DataFrame com uma coluna como Vector

eu tenho umRDDcom uma tupla de valores (String, SparseVector) e quero criar um Quadro de dadosusando oRDD. Para obter um (label: string, features: vector) Quadro de dadosque é o esquema exigido pela maioria das bibliotecas do algoritmo ml. Eu sei ...

python pyspark rdd bigdata

5 a resposta

PySpark DataFrames - maneira de enumerar sem converter para Pandas?

Eu tenho um grandepyspark.sql.dataframe.DataFramechamado df. Eu preciso de alguma maneira de enumerar registros, portanto, ser capaz de acessar registros com determinado índice. (ou selecione um grupo de registros com intervalo de índices) Nos ...

dataframe python apache-spark-sql

1 a resposta

Como usar funções de janela no PySpark usando DataFrames?

Tentando descobrir como usar as funções da janela no PySpark. Aqui está um exemplo do que eu gostaria de fazer, basta contar o número de vezes que um usuário tem um "evento" (nesse caso, "dt" é um carimbo de data / hora simulado). from ...

rdd python pyspark

2 a resposta

Converter um RDD em iterável: PySpark?

Eu tenho um RDD que estou criando carregando um arquivo de texto e pré-processando-o. Eu não quero coletá-lo e salvá-lo no disco ou na memória (dados inteiros), mas quero transmiti-lo para alguma outra função em python que consome dados um após o ...

scala hadoop hdfs

3 a resposta

Como é possível listar todos os arquivos csv em um local HDFS no shell Spark Scala?

O objetivo disso é manipular e salvar uma cópia de cada arquivo de dados em um segundo local no HDFS. Eu vou estar usando RddName.coalesce(1).saveAsTextFile(pathName)para salvar o resultado no HDFS. É por isso que quero fazer cada arquivo ...

pyspark python apache-spark-sql rdd

1 a resposta

O objeto 'PipelinedRDD' não possui atributo 'toDF' no PySpark

Estou tentando carregar um arquivo SVM e convertê-lo em umDataFrame para que eu possa usar o módulo ML (Pipeline ML) da Spark. Acabei de instalar um novo Spark 1.5.0 em um Ubuntu 14.04 (nãospark-env.sh configurado). Minhasmy_script.py é: from ...

Página 125 do 167

123 124125126 127

Resultados da pesquisa a pedido "apache-spark"

Por que o shell-spark falha com NullPointerException?

Acesso ao Spark a partir do aplicativo Flask

Adivinhador de tipo de dados Spark UDAF

Tags populares

Crie o Spark DataFrame. Não é possível inferir o esquema para o tipo: <type 'float'>

Como converter um RDD com uma coluna SparseVector em um DataFrame com uma coluna como Vector

PySpark DataFrames - maneira de enumerar sem converter para Pandas?

Como usar funções de janela no PySpark usando DataFrames?

Converter um RDD em iterável: PySpark?

Como é possível listar todos os arquivos csv em um local HDFS no shell Spark Scala?

O objeto 'PipelinedRDD' não possui atributo 'toDF' no PySpark

Você é muito ativo! É ótimo!

Resultados da pesquisa a pedido "apache-spark"

Tags populares