Resultados da pesquisa a pedido "spark-dataframe"

1 a resposta

Funções da janela Spark requer HiveContext?

Eu estou tentando um exemplo de função de janela na faísca deste ...

3 a resposta

Pyspark: passe várias colunas em UDF

Estou escrevendo uma Função Definida pelo Usuário que pega todas as colunas, exceto a primeira em um quadro de dados e soma (ou qualquer outra operação). Agora, o quadro de dados às vezes pode ter 3 colunas ou 4 colunas ou mais. Isso varia. Eu ...

1 a resposta

Como escrever um arquivo em parquet usando o Spark (pyspark)?

Sou bastante novo no Spark e tenho tentado converter um Dataframe em um arquivo de parquet no Spark, mas ainda não obtive sucesso. odocumentação [http://spark.apache.org/docs/latest/sql-programming-guide.html#parquet-files] diz que eu posso ...

2 a resposta

Não é possível resolver a coluna (nome numérico da coluna) no Spark Dataframe

Estes são os meus dados: scala> data.printSchema root |-- 1.0: string (nullable = true) |-- 2.0: string (nullable = true) |-- 3.0: string (nullable = true)Isso não funciona :( scala> ...

2 a resposta

Grupo Pyspark Dataframe por filtragem

Eu tenho um quadro de dados como abaixo cust_id req req_met ------- --- ------- 1 r1 1 1 r2 0 1 r2 1 2 r1 1 3 r1 1 3 r2 1 4 r1 0 5 r1 1 5 r2 0 5 r1 1Eu tenho que olhar para os clientes, ver quantos requisitos eles têm e ver se eles cumpriram ...

1 a resposta

Dividir o conteúdo da coluna String no PySpark Dataframe

Eu tenho um quadro de dados pyspark que possui uma coluna contendo seqüências de caracteres. Eu quero dividir esta coluna em palavras Código: >>> sentenceData = sqlContext.read.load('file://sample1.csv', format='com.databricks.spark.csv', ...

2 a resposta

Interseção de matriz no Spark SQL

Eu tenho uma tabela com uma coluna de tipo de matriz chamadawriter que tem valores comoarray[value1, value2], array[value2, value3].... etc. estou fazendoself join para obter resultados que tenham valores comuns entre matrizes. Eu ...

2 a resposta

Como converter um WrappedArray [WrappedArray [Float]] para Array [Array [Float]] em faísca (scala)

Estou usando o Spark 2.0. Eu tenho uma coluna do meu dataframe contendo umWrappedArray de WrappedArrays of Float. Um exemplo de uma linha seria: [[1.0 2.0 2.0][6.0 5.0 2.0][4.0 2.0 3.0]]Estou tentando transformar esta coluna em ...

1 a resposta

Grupo de Dataframe do Apache Spark por agg () para várias colunas

eu tenho umDataFrame com 3 colunas, ou seja,Id, First Name, Last Name Eu quero aplicarGroupBy com base emId e quer colecionarFirst Name, Last Name coluna como lista. Exemplo: - Eu tenho um DF como este +---+-------+--------+ |id |fName |lName ...

1 a resposta

junte dinamicamente dois quadros de dados spark-scala em várias colunas sem condições de junção codificadas

Eu gostaria de juntar dois quadros de dados spark-scala em várias colunas dinamicamente. Eu evitaria a comparação do nome da coluna de codificação codificada, conforme mostrado nas declarações a seguir; val joinRes = df1.join(df2, df1("col1") == ...