Resultados da pesquisa a pedido "databricks"
Como usar o arquivo do Databricks FileStore
Tentando usar um.dat arquivo para pesquisa de ip. O arquivo está no armazenamento de arquivos Databricks do código Scala: def getCountryCode(ip: String) { val filePath = "FileStore/maxmind/GeoIPCountry.dat" val ipLookups = new IpLookups(geoFile ...
Especifique várias alterações de tipo de dados de colunas para diferentes tipos de dados no pyspark
Eu tenho um DataFrame (df), que consiste em mais de 50 colunas e diferentes tipos de dados, como df3.printSchema() CtpJobId: string (nullable = true) |-- TransformJobStateId: string (nullable = true) |-- LastError: string (nullable = true) ...
Como truncar e / ou usar curingas com o Databrick
Estou tentando escrever um script em databricks que selecionará um arquivo com base em certos caracteres no nome do arquivo ou apenas no carimbo de data / hora no arquiv Por exemplo, o seguinte arquivo é o seguinte: ...
Salvar dataframe do Spark em arquivo único no local hdfs [duplicado]
Esta pergunta já tem uma resposta aqui: Como salvar dados RDD em arquivos json, não em pastas [/questions/40577546/how-to-save-rdd-data-into-json-files-not-folders] 2 respostasTenho o dataframe e quero salvar em um único arquivo no local ...
Método mais simples para lematização de texto no Scala e Spark
Eu quero usar a lematização em um arquivo de texto: surprise heard thump opened door small seedy man clasping package wrapped. upgrading system found review spring 2008 issue moody audio backed. omg left gotta wrap review order asap . understand ...
obter tipo de dados da coluna usando o pyspark
Estamos lendo dados do MongoDBCollection. Collection A coluna possui dois valores diferentes (por exemplo:(bson.Int64,int) (int,float) ) Estou tentando obter um tipo de dados usando o pyspark. Meu problema é que algumas colunas têm tipos de ...
Obter o tamanho / comprimento de uma coluna da matriz
Eu sou novo na programação Scala e esta é a minha pergunta: Como contar o número de strings para cada linha? Meu Dataframe é composto por uma única coluna do tipo Array [String]. friendsDF: org.apache.spark.sql.DataFrame = [friends: array<string>]