Resultados da pesquisa a pedido "apache-spark-sql"

Como criar o SparkSession com suporte ao Hive (falha com "As classes do Hive não foram encontradas")?

Estou recebendo esse erro ao tentar executar esse código. import org.apache.spark.sql.Dataset; import org.apache.spark.sql.Row; import org.apache.spark.sql.SparkSession; public class App { public static void main(String[] args) throws Exception ...

sqlite apache-spark scala

1 a resposta

Conecte-se ao SQLite no Apache Spark

Eu quero executar uma função personalizada em todas as tabelas em um banco de dados SQLite. A função é mais ou menos a mesma, mas depende do esquema da tabela individual. Além disso, as tabelas e seus esquemas são conhecidos apenas em tempo de ...

pyspark apache-spark

1 a resposta

Como listar todas as tabelas no banco de dados usando o Spark SQL?

Eu tenho uma conexão SparkSQL com um banco de dados externo: from pyspark.sql import SparkSession spark = SparkSession \ .builder \ .appName("Python Spark SQL basic example") \ .getOrCreate()Se eu souber o nome de uma tabela, é fácil ...

apache-spark-mllib apache-spark-ml python apache-spark

1 a resposta

Codifique e monte vários recursos no PySpark

Eu tenho uma classe Python que estou usando para carregar e processar alguns dados no Spark. Entre várias coisas que preciso fazer, estou gerando uma lista de variáveis fictícias derivadas de várias colunas em um dataframe do Spark. Meu problema ...

apache-spark pyspark amazon-s3 python

3 a resposta

PySpark: cuspir arquivo único ao escrever em vez de vários arquivos de peça

Existe uma maneira de impedir que o PySpark crie vários arquivos pequenos ao gravar um DataFrame em um arquivo JSON? Se eu correr: df.write.format('json').save('myfile.json')ou df1.write.json('myfile.json')ele cria a pasta chamadamyfile e ...

pyspark databricks apache-spark

4 a resposta

obter tipo de dados da coluna usando o pyspark

Estamos lendo dados do MongoDBCollection. Collection A coluna possui dois valores diferentes (por exemplo:(bson.Int64,int) (int,float) ) Estou tentando obter um tipo de dados usando o pyspark. Meu problema é que algumas colunas têm tipos de ...

apache-spark hadoop java hdfs

4 a resposta

Analisar CSV como DataFrame / DataSet com Apache Spark e Java

Eu sou novo no spark, e quero usar o agrupar por e reduzir para encontrar o seguinte em CSV (uma linha por funcionário): Department, Designation, costToCompany, State Sales, Trainee, 12000, UP Sales, Lead, 32000, AP Sales, Lead, 32000, LA Sales, ...

apache-spark

1 a resposta

Campos anuláveis do esquema do DataFrame do Spark

Eu escrevi o código a seguir no Scala e no Python, no entanto, o DataFrame retornado não parece aplicar os campos não anuláveis no meu esquema que estou aplicando.italianVotes.csv é um arquivo csv com '~' como separador e quatro campos. Estou ...

pyspark apache-spark user-defined-functions python

1 a resposta

PySpark 2.1: Importando módulo com quebras de UDF Hive connectivity

Atualmente, estou trabalhando com o Spark 2.1 e tenho um script principal que chama um módulo auxiliar que contém todos os meus métodos de transformação. Em outras palavras: main.py helper.pyNo topo da minhahelper.py file Tenho vários UDFs ...

apache-spark dataframe pyspark

2 a resposta

Como excluir várias colunas no Spark dataframe em Python

Eu descobri que o PySpark tem um método chamadodrop mas parece que só pode eliminar uma coluna de cada vez. Alguma idéia de como soltar várias colunas ao mesmo tempo? df.drop(['col1','col2']) TypeError Traceback (most recent call ...

Página 1 do 52

12 3 4 5

Você é muito ativo! É ótimo!

Resultados da pesquisa a pedido "apache-spark-sql"

Tags populares