Resultados da pesquisa a pedido "apache-spark"

1 a resposta

Posso criar um RDD a partir de um tópico kafka se não souber o deslocamento até?

...

3 a resposta

Apache Spark: diferenças entre os modos de implantação do cliente e do cluster

TL; DR:Em um cluster Independente do Spark, quais são as diferenças entre os modos de implantação do cliente e do cluster? Como definir em qual modo meu aplicativo será executado? Temos um cluster autônomo do Spark com três máquinas, todas elas ...

1 a resposta

Obtenha o valor máximo para cada chave em um Spark RDD

Qual é a melhor maneira de retornar a linha máxima (valor) associada a cada chave exclusiva em um RDD spark? Estou usando python e tentei o Math max, mapeando e reduzindo por chaves e agregados. Existe uma maneira eficiente de fazer isso? ...

1 a resposta

Como converter um RDD [Row] novamente para DataFrame [duplicate]

Esta pergunta já tem uma resposta aqui: Como converter objeto rdd em dataframe no spark [/questions/29383578/how-to-convert-rdd-object-to-dataframe-in-spark] 10 respostasEu tenho brincado com a conversão de RDDs para DataFrames e ...

1 a resposta

Como ler um arquivo do HDFS no map () rapidamente com o Spark

Preciso ler um arquivo diferente em cada mapa (), o arquivo está no HDFS val rdd=sc.parallelize(1 to 10000) val rdd2=rdd.map{x=> val hdfs = org.apache.hadoop.fs.FileSystem.get(new java.net.URI("hdfs://ITS-Hadoop10:9000/"), ...

1 a resposta

Árvores de decisão Spark MLib: probabilidade de rótulos por recursos?

Eu consegui exibir as probabilidades totais do meulabels, por exemplo, depois de exibir minha árvore de decisão, tenho uma tabela: Total Predictions : 65% impressions 30% clicks 5% conversionsMas meu problema é encontrar probabilidades (ou ...

1 a resposta

Qual é o impacto no desempenho da conversão entre `DataFrame`,` RDD` e vice-versa?

Enquanto meu primeiro instinto é usarDataFrames para tudo, simplesmente não é possível - algumas operações são claramente mais fáceis e / ou têm melhor desempenho comoRDD operações, para não mencionar certas APIs comoGraphX só trabalha ...

2 a resposta

Quantas partições o Spark cria quando um arquivo é carregado no bucket do S3?

Se o arquivo for carregado do HDFS por padrão, o spark criará uma partição por bloco. Mas como o spark decide partições quando um arquivo é carregado no bucket do S3?

3 a resposta

Adicionar jars a uma tarefa do Spark - spark-submit

É verdade ... já foi discutido bastante. No entanto, há muita ambiguidade e algumas das respostas fornecidas ... incluindo a duplicação de referências de jar nas opções ou na configuração de jars / executor / driver. Os detalhes ambíguos e / ou ...

2 a resposta

Qual é a classe de caso Scala equivalente no PySpark?

Como você empregaria e / ou implementaria uma classe de caso equivalente no PySpark?