Resultados da pesquisa a pedido "apache-spark"

1 a resposta

Como usar o arquivo do Databricks FileStore

Tentando usar um.dat arquivo para pesquisa de ip. O arquivo está no armazenamento de arquivos Databricks do código Scala: def getCountryCode(ip: String) { val filePath = "FileStore/maxmind/GeoIPCountry.dat" val ipLookups = new IpLookups(geoFile ...

1 a resposta

Calcular com eficiência o total de linhas de um amplo Spark DF

Eu tenho um amplo quadro de dados de faísca de alguns milhares de colunas em cerca de um milhão de linhas, para o qual gostaria de calcular o total de linhas. Minha solução até agora está abaixo. Eu usei:dplyr - soma de várias colunas usando ...

4 a resposta

Como salvar um arquivo no cluster

Estou conectado ao cluster usandossh e eu envio o programa para o cluster usando spark-submit --master yarn myProgram.pyQuero salvar o resultado em um arquivo de texto e tentei usar as seguintes ...

1 a resposta

Como corrigir faísca horrivelmente mal interpretando csv?

Eu tenho dois arquivos csv, um contendo palavras-chave para filmes, o outro contendo elenco e equipe. okeywords.csv o arquivo fica assim: $ head -n 3 keywords.csv id,keywords 862,"[{'id': 931, 'name': 'jealousy'}, {'id': 4290, 'name': 'toy'}, ...

2 a resposta

Como usar o modo de saída de atualização com o formato FileFormat?

Estou tentando usar o streaming estruturado do spark no modo de saída de atualização para gravar em um arquivo. eu encontreieste ...

1 a resposta

O CrossValidator não suporta o VectorUDT como rótulo no spark-ml

Eu tenho um problema com ml.crossvalidator no scala spark enquanto estiver usando um codificador quente. este é o meu código val tokenizer = new Tokenizer(). setInputCol("subjects"). setOutputCol("subject") //CountVectorizer / TF val ...

1 a resposta

Stack Spark dataframes horizontalmente - equivalente a pandas concat ou r cbind

Existe uma maneira de acrescentar umdataframe horizontalmente para outro - supondo que ambos tenham número idêntico de linhas? Isso seria o equivalente apandas concat poraxis=1; result = pd.concat([df1, df4], axis=1)ou oR cbind

1 a resposta

Os nomes das colunas do DataFrame entram em conflito com. (Ponto)

Eu tenho um DataFramedf que possui este esquema: root |-- person.name: string (nullable = true) |-- person: struct (nullable = true) | |-- age: long (nullable = true) | |-- name: string (nullable = true) Quando eu façodf.select("person.name") ...

1 a resposta

Scala UDF retornando 'Esquema para o tipo Unidade não é suportado'

Quero fazer alterações em uma coluna no quadro de dados. A coluna é uma matriz para números inteiros. Eu quero substituir um elemento da matriz, pegando o índice de outra matriz e substituindo esse elemento por um elemento da terceira matriz. ...

2 a resposta

Processar todas as colunas / a linha inteira em um Spark UDF

Para um dataframe que contenha uma combinação de tipos de dados string e numéricos, o objetivo é criar um novofeatures coluna que é umaminhash de todos eles. Embora isso possa ser feito executando umdataframe.toRDD é caro fazer isso quando o ...