Resultados da pesquisa a pedido "apache-spark"
Resultados de filtragem colaborativa do Apache Spark ALS. Eles não fazem sentido
Eu queria experimentar o Spark para filtragem colaborativa usando o MLlib, conforme explicado neste ...
Spark SQL incapaz de concluir a gravação de dados do Parquet com um grande número de shards
Estou tentando usar o Apache Spark SQL para etl json log data no S3 em arquivos Parquet também no S3. Meu código é basicamente: import org.apache.spark._ val sqlContext = sql.SQLContext(sc) val data = sqlContext.jsonFile("s3n://...", 10e-6) ...
Quais são as transformações do Spark que causam um Shuffle?
Tenho problemas para encontrar nas operações de documentação do Spark que causam uma reprodução aleatória e uma operação que não ocorre. Nesta lista, quais causam uma reprodução aleatória e quais não causam? Mapa e filtro não. No entanto, não ...
Como implementar a desserialização no consumidor kafka usando o scala?
Eu tenho a seguinte linha no código do meu consumidor kafka. val lines = KafkaUtils.createStream(ssc, zkQuorum, group, topicpMap).map(_._2) Como desserializar "linhas" desse fluxo no objeto original? A serialisabilidade foi implementada no ...
No Spark, qual é a maneira correta de ter um objeto estático em todos os trabalhadores?
Eu estive olhando a documentação do Spark e menciona isso: A API do Spark depende muito da passagem de funções no programa de driver para execução no cluster. Existem duas maneiras recomendadas de fazer isso: Sintaxe de função anônima, que pode ...
Exemplo de execução do spark scala falha
Eu sou novo no Spark e no Scala. Criei um projeto IntelliJ Scala com o SBT e adicionei algumas linhas ao build.sbt. name := "test-one" version := "1.0" scalaVersion := "2.11.2" libraryDependencies += "org.apache.spark" % "spark-core_2.10" % ...
Erro EntityTooLarge ao fazer upload de um arquivo 5G no Amazon S3
O limite de tamanho do arquivo Amazon S3 deve ser de 5T, de acordo com este anúncio [http://aws.amazon.com/blogs/aws/amazon-s3-object-size-limit/], mas estou recebendo o seguinte erro ao fazer upload de um arquivo ...
Como converter Scala RDD em Mapa
Eu tenho um RDD (array de String)org.apache.spark.rdd.RDD[String] = MappedRDD[18] e convertê-lo em um mapa com IDs exclusivos. Eu fiz 'val vertexMAp = vertices.zipWithUniqueId"mas isso me deu outro RDD do tipo'org.apache.spark.rdd.RDD[(String, ...
Como definir a memória do Apache Spark Executor
Como posso aumentar a memória disponível para os nós do executor do Apache spark? Eu tenho um arquivo de 2 GB adequado para carregar no Apache Spark. Atualmente, estou executando o apache spark em uma máquina, para que o driver e o ...
Executando o Spark no YARN no modo de cluster de fios: Para onde vai a saída do console?
Segui esta página e executei o aplicativo de exemplo SparkPi no YARN no modo de cluster de fios. http://spark.apache.org/docs/latest/running-on-yarn.html [http://spark.apache.org/docs/latest/running-on-yarn.html] Não vejo a saída do programa no ...