Resultados da pesquisa a pedido "apache-spark"
Apache Spark: diferenças entre os modos de implantação do cliente e do cluster
TL; DR:Em um cluster Independente do Spark, quais são as diferenças entre os modos de implantação do cliente e do cluster? Como definir em qual modo meu aplicativo será executado? Temos um cluster autônomo do Spark com três máquinas, todas elas ...
Obtenha o valor máximo para cada chave em um Spark RDD
Qual é a melhor maneira de retornar a linha máxima (valor) associada a cada chave exclusiva em um RDD spark? Estou usando python e tentei o Math max, mapeando e reduzindo por chaves e agregados. Existe uma maneira eficiente de fazer isso? ...
Como converter um RDD [Row] novamente para DataFrame [duplicate]
Esta pergunta já tem uma resposta aqui: Como converter objeto rdd em dataframe no spark [/questions/29383578/how-to-convert-rdd-object-to-dataframe-in-spark] 10 respostasEu tenho brincado com a conversão de RDDs para DataFrames e ...
Como ler um arquivo do HDFS no map () rapidamente com o Spark
Preciso ler um arquivo diferente em cada mapa (), o arquivo está no HDFS val rdd=sc.parallelize(1 to 10000) val rdd2=rdd.map{x=> val hdfs = org.apache.hadoop.fs.FileSystem.get(new java.net.URI("hdfs://ITS-Hadoop10:9000/"), ...
Árvores de decisão Spark MLib: probabilidade de rótulos por recursos?
Eu consegui exibir as probabilidades totais do meulabels, por exemplo, depois de exibir minha árvore de decisão, tenho uma tabela: Total Predictions : 65% impressions 30% clicks 5% conversionsMas meu problema é encontrar probabilidades (ou ...
Qual é o impacto no desempenho da conversão entre `DataFrame`,` RDD` e vice-versa?
Enquanto meu primeiro instinto é usarDataFrames para tudo, simplesmente não é possível - algumas operações são claramente mais fáceis e / ou têm melhor desempenho comoRDD operações, para não mencionar certas APIs comoGraphX só trabalha ...
Quantas partições o Spark cria quando um arquivo é carregado no bucket do S3?
Se o arquivo for carregado do HDFS por padrão, o spark criará uma partição por bloco. Mas como o spark decide partições quando um arquivo é carregado no bucket do S3?
Adicionar jars a uma tarefa do Spark - spark-submit
É verdade ... já foi discutido bastante. No entanto, há muita ambiguidade e algumas das respostas fornecidas ... incluindo a duplicação de referências de jar nas opções ou na configuração de jars / executor / driver. Os detalhes ambíguos e / ou ...
Qual é a classe de caso Scala equivalente no PySpark?
Como você empregaria e / ou implementaria uma classe de caso equivalente no PySpark?