Resultados da pesquisa a pedido "spark-dataframe"

2 a resposta

Como escrever um objeto de conjunto de dados para se destacar no spark java?

Estou lendo o arquivo excel usandocom.crealytics.spark.excelpacote. Abaixo está o código para ler um arquivo excel no spark java. Dataset<Row> SourcePropertSet = sqlContext.read() .format("com.crealytics.spark.excel") .option("location", ...

3 a resposta

Erro ao explodir uma coluna struct no Spark

Eu tenho um quadro de dados cujo esquema se parece com isso: event: struct (nullable = true) | | event_category: string (nullable = true) | | event_name: string (nullable = true) | | properties: struct (nullable = true) | | | ErrorCode: string ...

3 a resposta

PySpark, principal para DataFrame

O que eu quero fazer é um DataFrame, pegue os n elementos principais de acordo com alguma coluna especificada. O topo (self, num) na API RDD é exatamente o que eu quero. Gostaria de saber se existe API equivalente no mundo DataFrame? Minha ...

1 a resposta

Como você pode analisar uma string json de uma tabela temporária existente usando o PySpark?

Eu tenho um quadro de dados Spark existente que possui colunas como tais: -------------------- pid | response -------------------- 12 | {"status":"200"} resposta é uma coluna de sequência. Existe uma maneira de convertê-lo em JSON e extrair ...

1 a resposta

Como escrever Pyspark UDAF em várias colunas?

Eu tenho os seguintes dados em um dataframe pyspark chamadoend_stats_df: values start end cat1 cat2 10 1 2 A B 11 1 2 C B 12 1 2 D B 510 1 2 D C 550 1 2 C B 500 1 2 A B 80 1 3 A BE eu quero agregá-lo da seguinte maneira: Eu quero usar as ...

1 a resposta

Por que o Apache-Spark - Python é tão lento localmente em comparação com os pandas?

Uma faísca novato aqui. Recentemente, comecei a brincar com o spark na minha máquina local em dois núcleos usando o comando pyspark --master local [2] Eu tenho um arquivo de texto de 393 Mb que tem quase um milhão de linhas. Eu queria realizar ...

2 a resposta

Particionamento do parquet Spark: grande número de arquivos

Estou tentando aproveitar o particionamento de faísca. Eu estava tentando fazer algo como data.write.partitionBy("key").parquet("/location")O problema aqui em cada partição cria um grande número de arquivos parquet, que resultam em ...

2 a resposta

Dataframe do Spark: Pivot e Grupo com base em colunas

Eu tenho o quadro de dados de entrada abaixo, com ID, aplicativo e cliente Dataframe de entrada +--------------------+-----+---------+ | id|app |customer | +--------------------+-----+---------+ |id1 | fw| WM | |id1 | fw| CS | |id2 | fw| CS | ...

2 a resposta

como obter meses, anos de diferença entre duas datas em sparksql

Estou recebendo o erro: org.apache.spark.sql.analysisexception: cannot resolve 'year'Meus dados de entrada: 1,2012-07-21,2014-04-09Meu código: val sqlContext = new org.apache.spark.sql.SQLContext(sc) import sqlContext.implicits._ import ...

1 a resposta

Como definir a precisão da exibição no PySpark Dataframe show

Como você define a precisão de exibição no PySpark ao chamar.show()? Considere o seguinte exemplo: from math import sqrt import pyspark.sql.functions as f data = zip( map(lambda x: sqrt(x), range(100, 105)), map(lambda x: sqrt(x), range(200, ...