Resultados da pesquisa a pedido "apache-spark-sql"

1 a resposta

Manipulação de linha para Dataframe no spark [duplicado]

Esta pergunta já tem uma resposta aqui: Como mapear um Dataframe aninhado no Spark [/questions/36784735/how-to-flatmap-a-nested-dataframe-in-spark] 1 respostaEu tenho um dataframe no spark que é como: column_A | column_B --------- -------- 1 ...

1 a resposta

Como adicionar uma coluna aninhada a um DataFrame

Eu tenho um quadro de dadosdf com o seguinte esquema: root |-- city_name: string (nullable = true) |-- person: struct (nullable = true) | |-- age: long (nullable = true) | |-- name: string (nullable = true)O que eu quero fazer é adicionar uma ...

1 a resposta

Converter entre o conjunto de dados de streaming e o DStream

É possível converter um streamingo.a.s.sql.Dataset paraDStream? Se sim, como? Eu sei como convertê-lo em RDD, mas está em um contexto de streaming.

3 a resposta

A diferença entre countDistinct e distinct.count

Por que obtenho saídas diferentes para..agg(countDistinct("member_id") as "count") e..distinct.count? A diferença é a mesma que entreselect count(distinct member_id) eselect distinct count(member_id)?

2 a resposta

Problema de memória com streaming estruturado spark

Estou enfrentando problemas de memória executando fluxo estruturado com agregação e particionamento no Spark 2.2.0: session .readStream() .schema(inputSchema) .option(OPTION_KEY_DELIMITER, OPTION_VALUE_DELIMITER_TAB) ...

1 a resposta

Agregações de linha no Scala

Estou procurando uma maneira de obter uma nova coluna em um quadro de dados no Scala que calcula omin/max dos valores emcol1, col2, ...,col10 para cada linha. Eu sei que posso fazer isso com uma UDF, mas talvez haja uma maneira mais ...

4 a resposta

Analisar CSV como DataFrame / DataSet com Apache Spark e Java

Eu sou novo no spark, e quero usar o agrupar por e reduzir para encontrar o seguinte em CSV (uma linha por funcionário): Department, Designation, costToCompany, State Sales, Trainee, 12000, UP Sales, Lead, 32000, AP Sales, Lead, 32000, LA Sales, ...

1 a resposta

Como saber o número de tarefas e estágios do Spark na consulta de junção (broadcast)?

Eu uso o Spark 2.1.2. Estou tentando entender várias guias da interface do usuário do spark vis-à-vis à medida que um trabalho é executado. eu usospark-shell --master local e fazendo o seguintejoin inquerir: val df = Seq( (55, "Canada", -1, "", ...

1 a resposta

Spark SQL incapaz de concluir a gravação de dados do Parquet com um grande número de shards

Estou tentando usar o Apache Spark SQL para etl json log data no S3 em arquivos Parquet também no S3. Meu código é basicamente: import org.apache.spark._ val sqlContext = sql.SQLContext(sc) val data = sqlContext.jsonFile("s3n://...", 10e-6) ...

2 a resposta

Erro EntityTooLarge ao fazer upload de um arquivo 5G no Amazon S3

O limite de tamanho do arquivo Amazon S3 deve ser de 5T, de acordo com este anúncio [http://aws.amazon.com/blogs/aws/amazon-s3-object-size-limit/], mas estou recebendo o seguinte erro ao fazer upload de um arquivo ...