Resultados da pesquisa a pedido "apache-spark-sql"

Usando o Spark 1.5.0 e com o código a seguir, espero que unionAll to unionDataFrames com base no nome da coluna. No código, estou usando algum FunSuite para passar no SparkContextsc: object Entities { case class A (a: Int, b: Int) case class B ...

apache-spark pyspark python

2 a resposta

Spark DataFrame: Computando a média em linhas (ou qualquer operação agregada)

Eu tenho um Spark DataFrame carregado na memória e quero levar a média (ou qualquer operação agregada) sobre as colunas. Como eu faria isso? (Nonumpy, isso é conhecido como assumir uma operaçãoaxis=1) Se alguém estivesse calculando a média do ...

apache-spark-ml apache-spark-mllib pyspark apache-spark

3 a resposta

Como converter um RDD com uma coluna SparseVector em um DataFrame com uma coluna como Vector

eu tenho umRDDcom uma tupla de valores (String, SparseVector) e quero criar um Quadro de dadosusando oRDD. Para obter um (label: string, features: vector) Quadro de dadosque é o esquema exigido pela maioria das bibliotecas do algoritmo ml. Eu sei ...

dataframe apache-spark pyspark python

1 a resposta

Crie o Spark DataFrame. Não é possível inferir o esquema para o tipo: <type 'float'>

Alguém poderia me ajudar a resolver esse problema que tenho com o Spark DataFrame? Quando eu façomyFloatRDD.toDF() Eu recebo um erro: TypeError: Não é possível inferir o esquema para o tipo: type 'float' Não entendo o porquê ...

dataframe apache-spark python

1 a resposta

Como usar funções de janela no PySpark usando DataFrames?

Tentando descobrir como usar as funções da janela no PySpark. Aqui está um exemplo do que eu gostaria de fazer, basta contar o número de vezes que um usuário tem um "evento" (nesse caso, "dt" é um carimbo de data / hora simulado). from ...

dataframe python apache-spark pyspark

3 a resposta

Como adicionar uma coluna constante em um Spark DataFrame?

Eu quero adicionar uma coluna em umDataFrame com algum valor arbitrário (que é o mesmo para cada linha). Eu recebo um erro quando usowithColumn do seguinte modo: dt.withColumn('new_column', ...

pyspark apache-spark python rdd

1 a resposta

O objeto 'PipelinedRDD' não possui atributo 'toDF' no PySpark

Estou tentando carregar um arquivo SVM e convertê-lo em umDataFrame para que eu possa usar o módulo ML (Pipeline ML) da Spark. Acabei de instalar um novo Spark 1.5.0 em um Ubuntu 14.04 (nãospark-env.sh configurado). Minhasmy_script.py é: from ...

apache-spark amazon-web-services emr

2 a resposta

no Amazon EMR 4.0.0, a configuração /etc/spark/conf/spark-env.conf é ineficaz

Estou lançando meu hiveserver2 baseado em spark no Amazon EMR, que possui uma dependência extra de caminho de classe. Devido a esse bug no Amazon ...

scala dataframe apache-spark

4 a resposta

Como compactar dois (ou mais) DataFrame no Spark

apache-spark parquet scala

1 a resposta

Partição SparkPor muito mais lento que sem ela

Eu testei a escrita com: df.write.partitionBy("id", "name") .mode(SaveMode.Append) .parquet(filePath)No entanto, se eu deixar de fora o particionamento: df.write .mode(SaveMode.Append) .parquet(filePath)Ele executa 100x (!) Mais rápido. É ...

Página 37 do 52

35 363738 39

Resultados da pesquisa a pedido "apache-spark-sql"

O que está acontecendo de errado com o `unionAll` do Spark` DataFrame`?

Spark DataFrame: Computando a média em linhas (ou qualquer operação agregada)

Como converter um RDD com uma coluna SparseVector em um DataFrame com uma coluna como Vector

Tags populares

Crie o Spark DataFrame. Não é possível inferir o esquema para o tipo: <type 'float'>

Como usar funções de janela no PySpark usando DataFrames?

Como adicionar uma coluna constante em um Spark DataFrame?

O objeto 'PipelinedRDD' não possui atributo 'toDF' no PySpark

no Amazon EMR 4.0.0, a configuração /etc/spark/conf/spark-env.conf é ineficaz

Como compactar dois (ou mais) DataFrame no Spark

Partição SparkPor muito mais lento que sem ela

Você é muito ativo! É ótimo!

Resultados da pesquisa a pedido "apache-spark-sql"

Tags populares