Resultados da pesquisa a pedido "apache-spark"
Spark: Classificar registros em grupos?
Eu tenho um conjunto de registros que eu preciso: 1) Agrupe por 'data', 'cidade' e 'tipo' 2) Classifique cada grupo por 'prêmio No meu código: import org.apache.spark.SparkConf import org.apache.spark.SparkContext object Sort { case class ...
processamento de log em tempo real usando o apache spark streaming
Quero criar um sistema onde possa ler logs em tempo real e usar o apache spark para processá-los. Estou confuso se devo usar algo como kafka ou flume para passar os logs para iniciar o fluxo ou devo passar os logs usando soquetes. Passei por um ...
Como obter o número de elementos na partição?
Existe alguma maneira de obter o número de elementos em uma partição spark RDD, considerando o ID da partição? Sem verificar a partição inteira. Algo assim: Rdd.partitions().get(index).size()Exceto que eu não vejo essa API para spark. Alguma ...
Como executar tarefas simultâneas (ações) no Apache Spark usando o contexto de spark único
Diz na documentação do Apache Spark "dentro de cada aplicativo Spark, vários "trabalhos" (ações do Spark) podem estar em execução simultaneamente se forem enviados por threads diferentes". Alguém pode explicar como obter essa simultaneidade para ...
usando o pyspark, leia / grave imagens 2D no sistema de arquivos hadoop
Quero poder ler / gravar imagens em um sistema de arquivos hdfs e aproveitar a localidade hdfs. Eu tenho uma coleção de imagens onde cada imagem é composta por Matrizes 2D de uint16informações adicionais básicas armazenadas como um ...
lançamento do spark: encontre a versão
Meu ambiente é o Windows 7 e o scala 2.11.4 instalado (funciona bem), o Java 1.8 Eu tentei spark-1.2.0-bin-hadoop2.4 e spark-1.2.1-bin-hadoop2.4 e cada vez que coloco bin\spark-shell.cmdAcabei de receber o erro do Windows: find: 'version': No ...
obtendo número de nós visíveis no PySpark
Estou executando algumas operações no PySpark e recentemente aumentamos o número de nós na minha configuração (que está no Amazon EMR). No entanto, embora eu tenha triplicado o número de nós (de 4 para 12), o desempenho parece não ter mudado. ...
Por que o foreach não traz nada ao programa de drivers?
Eu escrevi este programa em spark shell val array = sc.parallelize(List(1, 2, 3, 4)) array.foreach(x => println(x))isso imprime algumas instruções de depuração, mas não os números reais. O código abaixo funciona bem for(num <- array.take(4)) { ...
Carregar arquivo CSV com Spark
Eu sou novo no Spark e estou tentando ler dados CSV de um arquivo com o Spark. Aqui está o que estou fazendo: sc.textFile('file.csv') .map(lambda line: (line.split(',')[0], line.split(',')[1])) .collect()Espero que esta chamada me forneça uma ...
Como aumentar os fatores da matriz no Spark ALS recomender?
Sou iniciante no mundo do Machine Learning e no uso do Apache Spark. Eu segui o tutorial ...