Resultados da pesquisa a pedido "spark-dataframe"

1 a resposta

Como filtrar um spark dataframe contra outro dataframe

Estou tentando filtrar um dataframe contra outro: scala> val df1 = sc.parallelize((1 to 100).map(a=>(s"user $a", a*0.123, a))).toDF("name", "score", "user_id") scala> val df2 = sc.parallelize(List(2,3,4,5,6)).toDF("valid_id")Agora eu quero ...

4 a resposta

Como salvar um DataFrame como CSV compactado (compactado com gz)?

Eu uso Spark 1.6.0 e Scala. Quero salvar um DataFrame como formato CSV compactado. Aqui está o que eu tenho até agora (suponha que eu já tenhadf esc ComoSparkContext): //set the conf to the codec I ...

5 a resposta

Como resolver o AnalysisException: atributo (s) resolvido (s) no Spark

val rdd = sc.parallelize(Seq(("vskp", Array(2.0, 1.0, 2.1, 5.4)),("hyd",Array(1.5, 0.5, 0.9, 3.7)),("hyd", Array(1.5, 0.5, 0.9, 3.2)),("tvm", Array(8.0, 2.9, 9.1, 2.5)))) val df1= rdd.toDF("id", "vals") val rdd1 = ...

3 a resposta

Achatar Dataframe Spark aninhado

Existe uma maneira de nivelar um Spark Dataframe arbitrariamente aninhado? A maior parte do trabalho que estou vendo é escrita para um esquema específico e eu gostaria de poder achatar genericamente um Dataframe com diferentes tipos aninhados ...

3 a resposta

Qual é eficiente, Dataframe ou RDD ou hiveql?

Eu sou novato no Apache Spark. Meu trabalho é ler dois arquivos CSV, selecionar algumas colunas específicas, mesclar, agregar e gravar o resultado em um único arquivo CSV. Por exemplo, CSV1name,age,deparment_id ...

1 a resposta

Como escrever Pyspark UDAF em várias colunas?

Eu tenho os seguintes dados em um dataframe pyspark chamadoend_stats_df: values start end cat1 cat2 10 1 2 A B 11 1 2 C B 12 1 2 D B 510 1 2 D C 550 1 2 C B 500 1 2 A B 80 1 3 A BE eu quero agregá-lo da seguinte maneira: Eu quero usar as ...

1 a resposta

GroupByKey e crie listas de valores pyspark sql dataframe

Então, eu tenho um spark dataframe que se parece com: a | b | c 5 | 2 | 1 5 | 4 | 3 2 | 4 | 2 2 | 3 | 7E eu quero agrupar por colunaa, crie uma lista de valores da coluna b e esqueça c. O dataframe de saída seria: a | b_list 5 | (2,4) 2 | ...

1 a resposta

Grupo de Dataframe do Apache Spark por agg () para várias colunas

eu tenho umDataFrame com 3 colunas, ou seja,Id, First Name, Last Name Eu quero aplicarGroupBy com base emId e quer colecionarFirst Name, Last Name coluna como lista. Exemplo: - Eu tenho um DF como este +---+-------+--------+ |id |fName |lName ...

2 a resposta

Spark 2.0 ausente implícito no spark

Usando o Spark 2.0, estou vendo que é possível transformar um quadro de dados de linha em um quadro de dados de classes de caso. Quando tento fazer isso, sou recebido com uma mensagem informando para importarspark.implicits._. O problema que ...

1 a resposta

Função Apache Spark Window com coluna aninhada

Não tenho certeza se isso é um bug (ou apenas sintaxe incorreta). Eu procurei e não vi isso mencionado em outro lugar, então estou perguntando aqui antes de registrar um relatório de bug. Estou tentando usar uma função de janela particionada em ...