Resultados da pesquisa a pedido "apache-spark-sql"

4 a resposta

O que está acontecendo de errado com o `unionAll` do Spark` DataFrame`?

Usando o Spark 1.5.0 e com o código a seguir, espero que unionAll to unionDataFrames com base no nome da coluna. No código, estou usando algum FunSuite para passar no SparkContextsc: object Entities { case class A (a: Int, b: Int) case class B ...

2 a resposta

Spark DataFrame: Computando a média em linhas (ou qualquer operação agregada)

Eu tenho um Spark DataFrame carregado na memória e quero levar a média (ou qualquer operação agregada) sobre as colunas. Como eu faria isso? (Nonumpy, isso é conhecido como assumir uma operaçãoaxis=1) Se alguém estivesse calculando a média do ...

3 a resposta

Como converter um RDD com uma coluna SparseVector em um DataFrame com uma coluna como Vector

eu tenho umRDDcom uma tupla de valores (String, SparseVector) e quero criar um Quadro de dadosusando oRDD. Para obter um (label: string, features: vector) Quadro de dadosque é o esquema exigido pela maioria das bibliotecas do algoritmo ml. Eu sei ...

1 a resposta

Crie o Spark DataFrame. Não é possível inferir o esquema para o tipo: <type 'float'>

Alguém poderia me ajudar a resolver esse problema que tenho com o Spark DataFrame? Quando eu façomyFloatRDD.toDF() Eu recebo um erro: TypeError: Não é possível inferir o esquema para o tipo: type 'float' Não entendo o porquê ...

1 a resposta

Como usar funções de janela no PySpark usando DataFrames?

Tentando descobrir como usar as funções da janela no PySpark. Aqui está um exemplo do que eu gostaria de fazer, basta contar o número de vezes que um usuário tem um "evento" (nesse caso, "dt" é um carimbo de data / hora simulado). from ...

3 a resposta

Como adicionar uma coluna constante em um Spark DataFrame?

Eu quero adicionar uma coluna em umDataFrame com algum valor arbitrário (que é o mesmo para cada linha). Eu recebo um erro quando usowithColumn do seguinte modo: dt.withColumn('new_column', ...

1 a resposta

O objeto 'PipelinedRDD' não possui atributo 'toDF' no PySpark

Estou tentando carregar um arquivo SVM e convertê-lo em umDataFrame para que eu possa usar o módulo ML (Pipeline ML) da Spark. Acabei de instalar um novo Spark 1.5.0 em um Ubuntu 14.04 (nãospark-env.sh configurado). Minhasmy_script.py é: from ...

2 a resposta

no Amazon EMR 4.0.0, a configuração /etc/spark/conf/spark-env.conf é ineficaz

Estou lançando meu hiveserver2 baseado em spark no Amazon EMR, que possui uma dependência extra de caminho de classe. Devido a esse bug no Amazon ...

4 a resposta

Como compactar dois (ou mais) DataFrame no Spark

Eu tenho doisDataFrame a eb. a é como Column 1 | Column 2 abc | 123 cde | 23b é como Column 1 1 2Eu quero fechara eb (ou mais) DataFrames que se torna algo como: Column 1 | Column 2 | Column 3 abc | 123 | 1 cde | 23 | 2Como eu posso fazer isso?

1 a resposta

Partição SparkPor muito mais lento que sem ela

Eu testei a escrita com: df.write.partitionBy("id", "name") .mode(SaveMode.Append) .parquet(filePath)No entanto, se eu deixar de fora o particionamento: df.write .mode(SaveMode.Append) .parquet(filePath)Ele executa 100x (!) Mais rápido. É ...