Resultados da pesquisa a pedido "apache-spark"

2 a resposta

Como o DAG funciona nos bastidores do RDD?

oDocumento de pesquisa Spark [http://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf]prescreveu um novo modelo de programação distribuída sobre o Hadoop MapReduce clássico, reivindicando a simplificação e o grande aumento de desempenho em ...

2 a resposta

Problema de transmissão do Spark Kafka

Estou usando maven eu adicionei as seguintes dependências <dependency> <!-- Spark dependency --> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming_2.10</artifactId> <version>1.1.0</version> </dependency> <dependency> <!-- Spark ...

3 a resposta

lendo todos os arquivos do HDFS recursivamente no spark java api

Estou usando o spark para ler dados de todos os arquivos do HDFS em um único RDD de um diretório e também dos subdiretórios. Não consegui encontrar nenhum método eficiente para fazer isso. Então, eu tentei escrever um código personalizado, como ...

1 a resposta

Por que o Spark Cassandra Connector falha com NoHostAvailableException?

Estou tendo problemas para fazer o Spark Cassandra Connector trabalhar em Scala. Estou usando estas versões: Scala 2.10.4spark-core 1.0.2cassandra-thrift 2.1.0 (meu cassandra instalado é v2.1.0)cassandra-clientutil 2.1.0cassandra-driver-core ...

1 a resposta

Faísca: Reduzir não. de arquivos de saída

Eu escrevi um programa Spark que imita a funcionalidade de um trabalho existente de Redução de mapa. O trabalho de MR leva cerca de 50 minutos todos os dias, mas o trabalho do Spark leva apenas 9 minutos! Isso é ótimo! Quando olhei para o ...

2 a resposta

Como posso obter uma posição de elemento no RDD do Spark?

Eu sou novo no Apache Spark e sei que a estrutura de dados principal é RDD. Agora estou escrevendo alguns aplicativos que requerem informações posicionais de elementos. Por exemplo, depois de converter um ArrayList em um RDD (Java), para cada ...

2 a resposta

Instruções de seleção da API Java do Spark Datastax

Estou usando um tutorial aqui neste Github para executar o spark no cassandra usando um projeto java maven: https://github.com/datastax/spark-cassandra-connector [https://github.com/datastax/spark-cassandra-connector]. Eu descobri como usar ...

5 a resposta

Adicione um cabeçalho antes do arquivo de texto ao salvar no Spark

Eu tenho algum código spark para processar um arquivo csv. Faz alguma transformação nele. Agora eu quero salvar este RDD como um arquivo CSV e adicionar um cabeçalho. Cada linha deste RDD já está formatada corretamente. Não sei bem como fazê-lo. ...

4 a resposta

Como converter spark SchemaRDD em RDD da minha classe de caso?

Nos documentos do Spark, é claro como criar arquivos parquet a partir deRDD de suas próprias classes de casos; (dos documentos) val people: RDD[Person] = ??? // An RDD of case class objects, from the previous example. // The RDD is implicitly ...

1 a resposta

Como saber o número de tarefas e estágios do Spark na consulta de junção (broadcast)?

Eu uso o Spark 2.1.2. Estou tentando entender várias guias da interface do usuário do spark vis-à-vis à medida que um trabalho é executado. eu usospark-shell --master local e fazendo o seguintejoin inquerir: val df = Seq( (55, "Canada", -1, "", ...