Resultados da pesquisa a pedido "apache-spark"

Eu tenho um conjunto de registros que eu preciso: 1) Agrupe por 'data', 'cidade' e 'tipo' 2) Classifique cada grupo por 'prêmio No meu código: import org.apache.spark.SparkConf import org.apache.spark.SparkContext object Sort { case class ...

apache-kafka flume spark-streaming

3 a resposta

processamento de log em tempo real usando o apache spark streaming

Quero criar um sistema onde possa ler logs em tempo real e usar o apache spark para processá-los. Estou confuso se devo usar algo como kafka ou flume para passar os logs para iniciar o fluxo ou devo passar os logs usando soquetes. Passei por um ...

partitioning

3 a resposta

Como obter o número de elementos na partição?

Existe alguma maneira de obter o número de elementos em uma partição spark RDD, considerando o ID da partição? Sem verificar a partição inteira. Algo assim: Rdd.partitions().get(index).size()Exceto que eu não vejo essa API para spark. Alguma ...

concurrency java

1 a resposta

Como executar tarefas simultâneas (ações) no Apache Spark usando o contexto de spark único

Diz na documentação do Apache Spark "dentro de cada aplicativo Spark, vários "trabalhos" (ações do Spark) podem estar em execução simultaneamente se forem enviados por threads diferentes". Alguém pode explicar como obter essa simultaneidade para ...

hadoop sequencefile pyspark

1 a resposta

usando o pyspark, leia / grave imagens 2D no sistema de arquivos hadoop

Quero poder ler / gravar imagens em um sistema de arquivos hdfs e aproveitar a localidade hdfs. Eu tenho uma coleção de imagens onde cada imagem é composta por Matrizes 2D de uint16informações adicionais básicas armazenadas como um ...

windows scala

3 a resposta

lançamento do spark: encontre a versão

Meu ambiente é o Windows 7 e o scala 2.11.4 instalado (funciona bem), o Java 1.8 Eu tentei spark-1.2.0-bin-hadoop2.4 e spark-1.2.1-bin-hadoop2.4 e cada vez que coloco bin\spark-shell.cmdAcabei de receber o erro do Windows: find: 'version': No ...

pyspark python-2.7

5 a resposta

obtendo número de nós visíveis no PySpark

Estou executando algumas operações no PySpark e recentemente aumentamos o número de nós na minha configuração (que está no Amazon EMR). No entanto, embora eu tenha triplicado o número de nós (de 4 para 12), o desempenho parece não ter mudado. ...

2 a resposta

Por que o foreach não traz nada ao programa de drivers?

Eu escrevi este programa em spark shell val array = sc.parallelize(List(1, 2, 3, 4)) array.foreach(x => println(x))isso imprime algumas instruções de depuração, mas não os números reais. O código abaixo funciona bem for(num <- array.take(4)) { ...

python csv pyspark

11 a resposta

Carregar arquivo CSV com Spark

Eu sou novo no Spark e estou tentando ler dados CSV de um arquivo com o Spark. Aqui está o que estou fazendo: sc.textFile('file.csv') .map(lambda line: (line.split(',')[0], line.split(',')[1])) .collect()Espero que esta chamada me forneça uma ...

python machine-learning

1 a resposta

Como aumentar os fatores da matriz no Spark ALS recomender?

Sou iniciante no mundo do Machine Learning e no uso do Apache Spark. Eu segui o tutorial ...

Página 95 do 167

93 949596 97

Resultados da pesquisa a pedido "apache-spark"

Spark: Classificar registros em grupos?

processamento de log em tempo real usando o apache spark streaming

Como obter o número de elementos na partição?

Tags populares

Como executar tarefas simultâneas (ações) no Apache Spark usando o contexto de spark único

usando o pyspark, leia / grave imagens 2D no sistema de arquivos hadoop

lançamento do spark: encontre a versão

obtendo número de nós visíveis no PySpark

Por que o foreach não traz nada ao programa de drivers?

Carregar arquivo CSV com Spark

Como aumentar os fatores da matriz no Spark ALS recomender?

Você é muito ativo! É ótimo!

Resultados da pesquisa a pedido "apache-spark"

Tags populares