Resultados da pesquisa a pedido "apache-spark-sql"
Aplicar uma transformação a várias colunas pyspark dataframe
Suponha que eu tenha o seguinte spark-dataframe: +-----+-------+ | word| label| +-----+-------+ | red| color| | red| color| | blue| color| | blue|feeling| |happy|feeling| +-----+-------+Que pode ser criado usando o seguinte código: sample_df = ...
Como construir o Dataframe a partir de um arquivo do Excel (xls, xlsx) no Scala Spark?
Eu tenho um grandeExcel(xlsx and xls) arquivo com várias folhas e preciso convertê-lo paraRDD ouDataframe para que possa ser associado a outrosdataframe mais tarde. Eu estava pensando em usarApache POI [https://poi.apache.org/]e salve-o comoCSV e ...
Como concatenar várias colunas em uma única coluna (sem conhecimento prévio sobre seu número)?
Digamos que eu tenha o seguinte quadro de dados: agentName|original_dt|parsed_dt| user|text| +----------+-----------+---------+-------+----+ |qwertyuiop| 0| 0|16102.0| 0| Desejo criar um novo quadro de dados com mais uma coluna que tenha ...
Como forçar o inferSchema for CSV a considerar números inteiros como datas (com a opção "dateFormat")?
Eu uso o Spark 2.2.0 Estou lendo um arquivo csv da seguinte maneira: val dataFrame = spark.read.option("inferSchema", "true") .option("header", true) .option("dateFormat", "yyyyMMdd") .csv(pathToCSVFile)Há uma coluna de data neste arquivo e ...
Transmitir coluna contendo vários formatos de data de sequência para DateTime no Spark
Eu tenho uma coluna de data no meu SparkDataDrame que contém vários formatos de sequência. Gostaria de transmiti-los para DateTime. Os dois formatos na minha coluna são: mm/dd/yyyy; eyyyy-mm-ddMinha solução até agora é usar um UDF para alterar ...
Calcular com eficiência o total de linhas de um amplo Spark DF
Eu tenho um amplo quadro de dados de faísca de alguns milhares de colunas em cerca de um milhão de linhas, para o qual gostaria de calcular o total de linhas. Minha solução até agora está abaixo. Eu usei:dplyr - soma de várias colunas usando ...
Os nomes das colunas do DataFrame entram em conflito com. (Ponto)
Eu tenho um DataFramedf que possui este esquema: root |-- person.name: string (nullable = true) |-- person: struct (nullable = true) | |-- age: long (nullable = true) | |-- name: string (nullable = true) Quando eu façodf.select("person.name") ...
Processar todas as colunas / a linha inteira em um Spark UDF
Para um dataframe que contenha uma combinação de tipos de dados string e numéricos, o objetivo é criar um novofeatures coluna que é umaminhash de todos eles. Embora isso possa ser feito executando umdataframe.toRDD é caro fazer isso quando o ...
A função .count () do Spark é diferente do conteúdo do quadro de dados ao filtrar no campo de registro corrompido
Eu tenho um trabalho do Spark, escrito em Python, que está obtendo um comportamento estranho ao verificar se há erros nos dados. Uma versão simplificada está abaixo: from pyspark.sql import SparkSession from pyspark.sql.types import ...
Por que o pushdown de predicado não é usado na API do conjunto de dados digitada (versus API do DataFrame não digitada)?
Eu sempre pensei que as APIs do conjunto de dados / dataframe são as mesmas ... e a única diferença é que a API do conjunto de dados fornecerá segurança no tempo de compilação. Direito ? Então .. eu tenho um caso muito simples: case class ...