Resultados da pesquisa a pedido "apache-spark"
Como o DAG funciona nos bastidores do RDD?
oDocumento de pesquisa Spark [http://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf]prescreveu um novo modelo de programação distribuída sobre o Hadoop MapReduce clássico, reivindicando a simplificação e o grande aumento de desempenho em ...
Problema de transmissão do Spark Kafka
Estou usando maven eu adicionei as seguintes dependências <dependency> <!-- Spark dependency --> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming_2.10</artifactId> <version>1.1.0</version> </dependency> <dependency> <!-- Spark ...
lendo todos os arquivos do HDFS recursivamente no spark java api
Estou usando o spark para ler dados de todos os arquivos do HDFS em um único RDD de um diretório e também dos subdiretórios. Não consegui encontrar nenhum método eficiente para fazer isso. Então, eu tentei escrever um código personalizado, como ...
Por que o Spark Cassandra Connector falha com NoHostAvailableException?
Estou tendo problemas para fazer o Spark Cassandra Connector trabalhar em Scala. Estou usando estas versões: Scala 2.10.4spark-core 1.0.2cassandra-thrift 2.1.0 (meu cassandra instalado é v2.1.0)cassandra-clientutil 2.1.0cassandra-driver-core ...
Faísca: Reduzir não. de arquivos de saída
Eu escrevi um programa Spark que imita a funcionalidade de um trabalho existente de Redução de mapa. O trabalho de MR leva cerca de 50 minutos todos os dias, mas o trabalho do Spark leva apenas 9 minutos! Isso é ótimo! Quando olhei para o ...
Como posso obter uma posição de elemento no RDD do Spark?
Eu sou novo no Apache Spark e sei que a estrutura de dados principal é RDD. Agora estou escrevendo alguns aplicativos que requerem informações posicionais de elementos. Por exemplo, depois de converter um ArrayList em um RDD (Java), para cada ...
Instruções de seleção da API Java do Spark Datastax
Estou usando um tutorial aqui neste Github para executar o spark no cassandra usando um projeto java maven: https://github.com/datastax/spark-cassandra-connector [https://github.com/datastax/spark-cassandra-connector]. Eu descobri como usar ...
Adicione um cabeçalho antes do arquivo de texto ao salvar no Spark
Eu tenho algum código spark para processar um arquivo csv. Faz alguma transformação nele. Agora eu quero salvar este RDD como um arquivo CSV e adicionar um cabeçalho. Cada linha deste RDD já está formatada corretamente. Não sei bem como fazê-lo. ...
Como converter spark SchemaRDD em RDD da minha classe de caso?
Nos documentos do Spark, é claro como criar arquivos parquet a partir deRDD de suas próprias classes de casos; (dos documentos) val people: RDD[Person] = ??? // An RDD of case class objects, from the previous example. // The RDD is implicitly ...
Como saber o número de tarefas e estágios do Spark na consulta de junção (broadcast)?
Eu uso o Spark 2.1.2. Estou tentando entender várias guias da interface do usuário do spark vis-à-vis à medida que um trabalho é executado. eu usospark-shell --master local e fazendo o seguintejoin inquerir: val df = Seq( (55, "Canada", -1, "", ...