Resultados da pesquisa a pedido "apache-spark"

4 a resposta

Spark: Classificar registros em grupos?

Eu tenho um conjunto de registros que eu preciso: 1) Agrupe por 'data', 'cidade' e 'tipo' 2) Classifique cada grupo por 'prêmio No meu código: import org.apache.spark.SparkConf import org.apache.spark.SparkContext object Sort { case class ...

3 a resposta

processamento de log em tempo real usando o apache spark streaming

Quero criar um sistema onde possa ler logs em tempo real e usar o apache spark para processá-los. Estou confuso se devo usar algo como kafka ou flume para passar os logs para iniciar o fluxo ou devo passar os logs usando soquetes. Passei por um ...

3 a resposta

Como obter o número de elementos na partição?

Existe alguma maneira de obter o número de elementos em uma partição spark RDD, considerando o ID da partição? Sem verificar a partição inteira. Algo assim: Rdd.partitions().get(index).size()Exceto que eu não vejo essa API para spark. Alguma ...

1 a resposta

Como executar tarefas simultâneas (ações) no Apache Spark usando o contexto de spark único

Diz na documentação do Apache Spark "dentro de cada aplicativo Spark, vários "trabalhos" (ações do Spark) podem estar em execução simultaneamente se forem enviados por threads diferentes". Alguém pode explicar como obter essa simultaneidade para ...

1 a resposta

usando o pyspark, leia / grave imagens 2D no sistema de arquivos hadoop

Quero poder ler / gravar imagens em um sistema de arquivos hdfs e aproveitar a localidade hdfs. Eu tenho uma coleção de imagens onde cada imagem é composta por Matrizes 2D de uint16informações adicionais básicas armazenadas como um ...

3 a resposta

lançamento do spark: encontre a versão

Meu ambiente é o Windows 7 e o scala 2.11.4 instalado (funciona bem), o Java 1.8 Eu tentei spark-1.2.0-bin-hadoop2.4 e spark-1.2.1-bin-hadoop2.4 e cada vez que coloco bin\spark-shell.cmdAcabei de receber o erro do Windows: find: 'version': No ...

5 a resposta

obtendo número de nós visíveis no PySpark

Estou executando algumas operações no PySpark e recentemente aumentamos o número de nós na minha configuração (que está no Amazon EMR). No entanto, embora eu tenha triplicado o número de nós (de 4 para 12), o desempenho parece não ter mudado. ...

2 a resposta

Por que o foreach não traz nada ao programa de drivers?

Eu escrevi este programa em spark shell val array = sc.parallelize(List(1, 2, 3, 4)) array.foreach(x => println(x))isso imprime algumas instruções de depuração, mas não os números reais. O código abaixo funciona bem for(num <- array.take(4)) { ...

11 a resposta

Carregar arquivo CSV com Spark

Eu sou novo no Spark e estou tentando ler dados CSV de um arquivo com o Spark. Aqui está o que estou fazendo: sc.textFile('file.csv') .map(lambda line: (line.split(',')[0], line.split(',')[1])) .collect()Espero que esta chamada me forneça uma ...

1 a resposta

Como aumentar os fatores da matriz no Spark ALS recomender?

Sou iniciante no mundo do Machine Learning e no uso do Apache Spark. Eu segui o tutorial ...