Resultados da pesquisa a pedido "apache-spark"

1 a resposta

O que significa "streaming" no Apache Spark e no Apache Flink?

Como eu fuiApache Spark Streaming [https://spark.apache.org/streaming/]Site, vi uma frase: O Spark Streaming facilita a criação de aplicativos de streaming escaláveis e tolerantes a falhas. E emApache Flink [https://flink.apache.org/]Website, ...

1 a resposta

PySpark - Sobreposição de tempo para objeto no RDD

Meu objetivo é agrupar objetos com base na sobreposição de tempo. Cada objeto no meurdd contém umstart_time eend_time. Provavelmente, estou lidando com isso de maneira ineficiente, mas o que estou planejando fazer é atribuir um ID de ...

1 a resposta

O spark armazena automaticamente alguns resultados em cache?

Eu executo uma ação duas vezes e, na segunda vez, leva muito pouco tempo para executar, então suspeito que o spark armazene automaticamente alguns resultados em cache. Mas eu encontrei qualquer fonte. Estou usando o Spark1.4. doc = ...

4 a resposta

Instalação do SparkR

Eu tenho a última versão do R - 3.2.1. Agora eu quero instalar o SparkR no R. Depois de executar: > install.packages("SparkR")Eu voltei: Installing package into ‘/home/user/R/x86_64-pc-linux-gnu-library/3.2’ (as ‘lib’ is unspecified) Warning in ...

5 a resposta

Igualdade de DataFrame no Apache Spark

Presumirdf1 edf2 são doisDataFrames no Apache Spark, calculado usando dois mecanismos diferentes, por exemplo, Spark SQL versus a API Scala / Java / Python. Existe uma maneira idiomática de determinar se os dois quadros de dados são equivalentes ...

1 a resposta

Diferença entre Spark Vetores e Scala imutável Vector?

Estou escrevendo um projeto para o Spark 1.4 no Scala e atualmente estou entre converter meus dados de entrada iniciais emspark.mllib.linalg.Vectors escala.immutable.Vector com quem mais tarde quero trabalhar no meu algoritmo. Alguém poderia ...

1 a resposta

criando estrutura de dados spark a partir de registros multilinhas

Estou tentando ler o arquivo de evento de retrospectiva no spark. O arquivo de evento está estruturado como tal. id,TEX201403310 version,2 info,visteam,PHI info,hometeam,TEX info,site,ARL02 info,date,2014/03/31 info,number,0 ...

3 a resposta

erro ao iniciar o shell de faísca

Acabei de baixar a versão mais recente do spark e quando iniciei o spark shell, recebi o seguinte erro: java.net.BindException: Failed to bind to: /192.168.1.254:0: Service 'sparkDriver' failed after 16 retries! ...

1 a resposta

Como o PySpark pode ser chamado no modo de depuração?

Eu tenho o IntelliJ IDEA configurado com o Apache Spark 1.4. Quero poder adicionar pontos de depuração aos meus scripts Spark Python para que eu possa depurá-los facilmente. Atualmente, estou executando este pouco de Python para inicializar o ...

2 a resposta

Como adicionar o número da linha em cada linha?

suponha que estes são meus dados: ‘Maps‘ and ‘Reduces‘ are two phases of solving a query in HDFS. ‘Map’ is responsible to read data from input location. it will generate a key value pair. that is, an intermediate output in local machine. ...