Resultados da pesquisa a pedido "apache-spark"
Como usar o arquivo do Databricks FileStore
Tentando usar um.dat arquivo para pesquisa de ip. O arquivo está no armazenamento de arquivos Databricks do código Scala: def getCountryCode(ip: String) { val filePath = "FileStore/maxmind/GeoIPCountry.dat" val ipLookups = new IpLookups(geoFile ...
Calcular com eficiência o total de linhas de um amplo Spark DF
Eu tenho um amplo quadro de dados de faísca de alguns milhares de colunas em cerca de um milhão de linhas, para o qual gostaria de calcular o total de linhas. Minha solução até agora está abaixo. Eu usei:dplyr - soma de várias colunas usando ...
Como salvar um arquivo no cluster
Estou conectado ao cluster usandossh e eu envio o programa para o cluster usando spark-submit --master yarn myProgram.pyQuero salvar o resultado em um arquivo de texto e tentei usar as seguintes ...
Como corrigir faísca horrivelmente mal interpretando csv?
Eu tenho dois arquivos csv, um contendo palavras-chave para filmes, o outro contendo elenco e equipe. okeywords.csv o arquivo fica assim: $ head -n 3 keywords.csv id,keywords 862,"[{'id': 931, 'name': 'jealousy'}, {'id': 4290, 'name': 'toy'}, ...
Como usar o modo de saída de atualização com o formato FileFormat?
Estou tentando usar o streaming estruturado do spark no modo de saída de atualização para gravar em um arquivo. eu encontreieste ...
O CrossValidator não suporta o VectorUDT como rótulo no spark-ml
Eu tenho um problema com ml.crossvalidator no scala spark enquanto estiver usando um codificador quente. este é o meu código val tokenizer = new Tokenizer(). setInputCol("subjects"). setOutputCol("subject") //CountVectorizer / TF val ...
Stack Spark dataframes horizontalmente - equivalente a pandas concat ou r cbind
Existe uma maneira de acrescentar umdataframe horizontalmente para outro - supondo que ambos tenham número idêntico de linhas? Isso seria o equivalente apandas concat poraxis=1; result = pd.concat([df1, df4], axis=1)ou oR cbind
Os nomes das colunas do DataFrame entram em conflito com. (Ponto)
Eu tenho um DataFramedf que possui este esquema: root |-- person.name: string (nullable = true) |-- person: struct (nullable = true) | |-- age: long (nullable = true) | |-- name: string (nullable = true) Quando eu façodf.select("person.name") ...
Scala UDF retornando 'Esquema para o tipo Unidade não é suportado'
Quero fazer alterações em uma coluna no quadro de dados. A coluna é uma matriz para números inteiros. Eu quero substituir um elemento da matriz, pegando o índice de outra matriz e substituindo esse elemento por um elemento da terceira matriz. ...
Processar todas as colunas / a linha inteira em um Spark UDF
Para um dataframe que contenha uma combinação de tipos de dados string e numéricos, o objetivo é criar um novofeatures coluna que é umaminhash de todos eles. Embora isso possa ser feito executando umdataframe.toRDD é caro fazer isso quando o ...