Resultados da pesquisa a pedido "apache-spark-sql"

1 a resposta

Aplicar uma transformação a várias colunas pyspark dataframe

Suponha que eu tenha o seguinte spark-dataframe: +-----+-------+ | word| label| +-----+-------+ | red| color| | red| color| | blue| color| | blue|feeling| |happy|feeling| +-----+-------+Que pode ser criado usando o seguinte código: sample_df = ...

3 a resposta

Como construir o Dataframe a partir de um arquivo do Excel (xls, xlsx) no Scala Spark?

Eu tenho um grandeExcel(xlsx and xls) arquivo com várias folhas e preciso convertê-lo paraRDD ouDataframe para que possa ser associado a outrosdataframe mais tarde. Eu estava pensando em usarApache POI [https://poi.apache.org/]e salve-o comoCSV e ...

4 a resposta

Como concatenar várias colunas em uma única coluna (sem conhecimento prévio sobre seu número)?

Digamos que eu tenha o seguinte quadro de dados: agentName|original_dt|parsed_dt| user|text| +----------+-----------+---------+-------+----+ |qwertyuiop| 0| 0|16102.0| 0| Desejo criar um novo quadro de dados com mais uma coluna que tenha ...

2 a resposta

Como forçar o inferSchema for CSV a considerar números inteiros como datas (com a opção "dateFormat")?

Eu uso o Spark 2.2.0 Estou lendo um arquivo csv da seguinte maneira: val dataFrame = spark.read.option("inferSchema", "true") .option("header", true) .option("dateFormat", "yyyyMMdd") .csv(pathToCSVFile)Há uma coluna de data neste arquivo e ...

1 a resposta

Transmitir coluna contendo vários formatos de data de sequência para DateTime no Spark

Eu tenho uma coluna de data no meu SparkDataDrame que contém vários formatos de sequência. Gostaria de transmiti-los para DateTime. Os dois formatos na minha coluna são: mm/dd/yyyy; eyyyy-mm-ddMinha solução até agora é usar um UDF para alterar ...

1 a resposta

Calcular com eficiência o total de linhas de um amplo Spark DF

Eu tenho um amplo quadro de dados de faísca de alguns milhares de colunas em cerca de um milhão de linhas, para o qual gostaria de calcular o total de linhas. Minha solução até agora está abaixo. Eu usei:dplyr - soma de várias colunas usando ...

1 a resposta

Os nomes das colunas do DataFrame entram em conflito com. (Ponto)

Eu tenho um DataFramedf que possui este esquema: root |-- person.name: string (nullable = true) |-- person: struct (nullable = true) | |-- age: long (nullable = true) | |-- name: string (nullable = true) Quando eu façodf.select("person.name") ...

2 a resposta

Processar todas as colunas / a linha inteira em um Spark UDF

Para um dataframe que contenha uma combinação de tipos de dados string e numéricos, o objetivo é criar um novofeatures coluna que é umaminhash de todos eles. Embora isso possa ser feito executando umdataframe.toRDD é caro fazer isso quando o ...

1 a resposta

A função .count () do Spark é diferente do conteúdo do quadro de dados ao filtrar no campo de registro corrompido

Eu tenho um trabalho do Spark, escrito em Python, que está obtendo um comportamento estranho ao verificar se há erros nos dados. Uma versão simplificada está abaixo: from pyspark.sql import SparkSession from pyspark.sql.types import ...

1 a resposta

Por que o pushdown de predicado não é usado na API do conjunto de dados digitada (versus API do DataFrame não digitada)?

Eu sempre pensei que as APIs do conjunto de dados / dataframe são as mesmas ... e a única diferença é que a API do conjunto de dados fornecerá segurança no tempo de compilação. Direito ? Então .. eu tenho um caso muito simples: case class ...