Resultados da pesquisa a pedido "apache-spark-sql"
Manipulação de linha para Dataframe no spark [duplicado]
Esta pergunta já tem uma resposta aqui: Como mapear um Dataframe aninhado no Spark [/questions/36784735/how-to-flatmap-a-nested-dataframe-in-spark] 1 respostaEu tenho um dataframe no spark que é como: column_A | column_B --------- -------- 1 ...
Como adicionar uma coluna aninhada a um DataFrame
Eu tenho um quadro de dadosdf com o seguinte esquema: root |-- city_name: string (nullable = true) |-- person: struct (nullable = true) | |-- age: long (nullable = true) | |-- name: string (nullable = true)O que eu quero fazer é adicionar uma ...
Converter entre o conjunto de dados de streaming e o DStream
É possível converter um streamingo.a.s.sql.Dataset paraDStream? Se sim, como? Eu sei como convertê-lo em RDD, mas está em um contexto de streaming.
A diferença entre countDistinct e distinct.count
Por que obtenho saídas diferentes para..agg(countDistinct("member_id") as "count") e..distinct.count? A diferença é a mesma que entreselect count(distinct member_id) eselect distinct count(member_id)?
Problema de memória com streaming estruturado spark
Estou enfrentando problemas de memória executando fluxo estruturado com agregação e particionamento no Spark 2.2.0: session .readStream() .schema(inputSchema) .option(OPTION_KEY_DELIMITER, OPTION_VALUE_DELIMITER_TAB) ...
Agregações de linha no Scala
Estou procurando uma maneira de obter uma nova coluna em um quadro de dados no Scala que calcula omin/max dos valores emcol1, col2, ...,col10 para cada linha. Eu sei que posso fazer isso com uma UDF, mas talvez haja uma maneira mais ...
Analisar CSV como DataFrame / DataSet com Apache Spark e Java
Eu sou novo no spark, e quero usar o agrupar por e reduzir para encontrar o seguinte em CSV (uma linha por funcionário): Department, Designation, costToCompany, State Sales, Trainee, 12000, UP Sales, Lead, 32000, AP Sales, Lead, 32000, LA Sales, ...
Como saber o número de tarefas e estágios do Spark na consulta de junção (broadcast)?
Eu uso o Spark 2.1.2. Estou tentando entender várias guias da interface do usuário do spark vis-à-vis à medida que um trabalho é executado. eu usospark-shell --master local e fazendo o seguintejoin inquerir: val df = Seq( (55, "Canada", -1, "", ...
Spark SQL incapaz de concluir a gravação de dados do Parquet com um grande número de shards
Estou tentando usar o Apache Spark SQL para etl json log data no S3 em arquivos Parquet também no S3. Meu código é basicamente: import org.apache.spark._ val sqlContext = sql.SQLContext(sc) val data = sqlContext.jsonFile("s3n://...", 10e-6) ...
Erro EntityTooLarge ao fazer upload de um arquivo 5G no Amazon S3
O limite de tamanho do arquivo Amazon S3 deve ser de 5T, de acordo com este anúncio [http://aws.amazon.com/blogs/aws/amazon-s3-object-size-limit/], mas estou recebendo o seguinte erro ao fazer upload de um arquivo ...