Resultados da pesquisa a pedido "apache-spark-sql"

3 a resposta

Como criar o SparkSession com suporte ao Hive (falha com "As classes do Hive não foram encontradas")?

Estou recebendo esse erro ao tentar executar esse código. import org.apache.spark.sql.Dataset; import org.apache.spark.sql.Row; import org.apache.spark.sql.SparkSession; public class App { public static void main(String[] args) throws Exception ...

1 a resposta

Conecte-se ao SQLite no Apache Spark

Eu quero executar uma função personalizada em todas as tabelas em um banco de dados SQLite. A função é mais ou menos a mesma, mas depende do esquema da tabela individual. Além disso, as tabelas e seus esquemas são conhecidos apenas em tempo de ...

1 a resposta

Como listar todas as tabelas no banco de dados usando o Spark SQL?

Eu tenho uma conexão SparkSQL com um banco de dados externo: from pyspark.sql import SparkSession spark = SparkSession \ .builder \ .appName("Python Spark SQL basic example") \ .getOrCreate()Se eu souber o nome de uma tabela, é fácil ...

1 a resposta

Codifique e monte vários recursos no PySpark

Eu tenho uma classe Python que estou usando para carregar e processar alguns dados no Spark. Entre várias coisas que preciso fazer, estou gerando uma lista de variáveis fictícias derivadas de várias colunas em um dataframe do Spark. Meu problema ...

3 a resposta

PySpark: cuspir arquivo único ao escrever em vez de vários arquivos de peça

Existe uma maneira de impedir que o PySpark crie vários arquivos pequenos ao gravar um DataFrame em um arquivo JSON? Se eu correr: df.write.format('json').save('myfile.json')ou df1.write.json('myfile.json')ele cria a pasta chamadamyfile e ...

4 a resposta

obter tipo de dados da coluna usando o pyspark

Estamos lendo dados do MongoDBCollection. Collection A coluna possui dois valores diferentes (por exemplo:(bson.Int64,int) (int,float) ) Estou tentando obter um tipo de dados usando o pyspark. Meu problema é que algumas colunas têm tipos de ...

4 a resposta

Analisar CSV como DataFrame / DataSet com Apache Spark e Java

Eu sou novo no spark, e quero usar o agrupar por e reduzir para encontrar o seguinte em CSV (uma linha por funcionário): Department, Designation, costToCompany, State Sales, Trainee, 12000, UP Sales, Lead, 32000, AP Sales, Lead, 32000, LA Sales, ...

1 a resposta

Campos anuláveis do esquema do DataFrame do Spark

Eu escrevi o código a seguir no Scala e no Python, no entanto, o DataFrame retornado não parece aplicar os campos não anuláveis no meu esquema que estou aplicando.italianVotes.csv é um arquivo csv com '~' como separador e quatro campos. Estou ...

1 a resposta

PySpark 2.1: Importando módulo com quebras de UDF Hive connectivity

Atualmente, estou trabalhando com o Spark 2.1 e tenho um script principal que chama um módulo auxiliar que contém todos os meus métodos de transformação. Em outras palavras: main.py helper.pyNo topo da minhahelper.py file Tenho vários UDFs ...

2 a resposta

Como excluir várias colunas no Spark dataframe em Python

Eu descobri que o PySpark tem um método chamadodrop mas parece que só pode eliminar uma coluna de cada vez. Alguma idéia de como soltar várias colunas ao mesmo tempo? df.drop(['col1','col2']) TypeError Traceback (most recent call ...