Resultados da pesquisa a pedido "pyspark"
Como criar o Spark 1.2 com o Maven (fornece java.io.IOException: Não é possível executar o programa “javac”)?
Estou tentando criar o Spark 1.2 com o Maven. Meu objetivo é usar o PySpark com o YARN no Hadoop 2.2. Vi que isso só era possível com o Spark com o Maven. Primeiro, isso é verdade? Se for verdade, qual é o problema no log abaixo? Como faço para ...
Reduza um par de valor-chave em um par de lista de chaves com o Apache Spark
Estou escrevendo um aplicativo Spark e quero combinar um conjunto de pares de valor-chave(K, V1), (K, V2), ..., (K, Vn) em um par de chave-valor múltiplo(K, [V1, V2, ..., Vn]). Eu sinto que deveria ser capaz de fazer isso usando oreduceByKey ...
Como encontrar o valor máximo no par RDD?
Eu tenho um RDD de par de faíscas (chave, contagem) como abaixo Array[(String, Int)] = Array((a,1), (b,2), (c,1), (d,3))Como encontrar a chave com maior contagem usando a API spark scala? EDIT: tipo de dados do par RDD é ...
Qual é a diferença entre spark-submit e pyspark?
Se eu iniciar o pyspark e, em seguida, execute este comando: import my_script; spark = my_script.Sparker(sc); spark.collapse('./data/')Tudo está bem. Se, no entanto, eu tentar fazer a mesma coisa através da linha de comando e envio de spark, ...
Como desativar o registro INFO no Spark?
Instalei o Spark usando o guia da AWS EC2 e posso iniciar o programa usando obin/pyspark script para chegar ao prompt do spark e também pode executar o Quick Start com êxito. No entanto, para a minha vida, não consigo descobrir como parar todos ...
importando o pyspark no shell python
Esta é uma cópia da pergunta de outra pessoa em outro fórum que nunca foi respondida, então pensei em pedir novamente aqui, pois tenho o mesmo ...