Resultados da pesquisa a pedido "apache-spark"

0 a resposta

Spark: espaço insuficiente para armazenar em cache o vermelho no contêiner enquanto ainda resta muita memória total de armazenamento

Eu tenho um cluster de 30 nós, cada nó tem 32 núcleos, 240 G de memória (instância da AWS cr1.8xlarge). Eu tenho as seguintes configurações: --driver-memory 200g --driver-cores 30 --executor-memory 70g --executor-cores 8 --num-executors 90Eu ...

1 a resposta

Problemas de configuração do Google Cloud Dataproc

Eu tenho encontrado vários problemas em algumas modelagens de tópicos do Spark LDA (principalmente erros de desassociação em intervalos aparentemente aleatórios) que estou executando, o que eu acho principalmente relacionado à alocação ...

0 a resposta

Erro de trabalho do Spark: YarnAllocator: Status de saída: -100. Diagnóstico: Contêiner liberado em um nó * perdido *

Estou executando um trabalho no AWS-EMR 4.1, Spark 1.5 com a seguinte conf: spark-submit --deploy-mode cluster --master yarn-cluster --driver-memory 200g --driver-cores 30 --executor-memory 70g --executor-cores 8 --num-executors 90 --conf ...

1 a resposta

Por que meu BroadcastHashJoin é mais lento que ShuffledHashJoin no Spark

Eu executo uma junção usando umjavaHiveContext no Spark. A mesa grande é de 1,76Gb e tem 100 milhões de registros. A segunda tabela é 273Mb e possui 10 milhões de registros. Eu recebo umJavaSchemaRDD e eu ligocount() nele: String ...

2 a resposta

Por que o compilador Scala falha com "o objeto SparkConf no pacote spark não pode ser acessado no pacote org.apache.spark"?

Não consigo acessar oSparkConf Na embalagem. Mas eu já importei oimport org.apache.spark.SparkConf. Meu código é: import org.apache.spark.SparkContext import org.apache.spark.SparkContext._ import org.apache.spark.SparkConf import ...

2 a resposta

Saída do trabalho Dataproc Spark no Google Cloud Logging

Existe uma maneira de enviar a saída dos trabalhos do Dataproc Spark para o registro no Google Cloud?Conforme explicado nos documentos do Dataproc [https://cloud.google.com/dataproc/driver-output]a saída do driver da tarefa (o mestre de uma ...

2 a resposta

Operar em elementos vizinhos no RDD no Spark

Como eu tenho uma coleção: List(1, 3,-1, 0, 2, -4, 6)É fácil classificá-lo como: List(-4, -1, 0, 1, 2, 3, 6)Então, eu posso construir uma nova coleção calculando 6 - 3, 3 - 2, 2 - 1, 1 - 0 e assim por diante: for(i <- 0 to list.length -2) ...

3 a resposta

Spark Word2vec matemática de vetor

Eu estava olhando para oexemplo [http://spark.apache.org/docs/latest/mllib-feature-extraction.html#example]do site Spark para Word2Vec: val input = sc.textFile("text8").map(line => line.split(" ").toSeq) val word2vec = new Word2Vec() val model = ...

3 a resposta

Como agregar valores na coleção após groupBy?

Eu tenho um quadro de dados com esquema como tal: [visitorId: string, trackingIds: array<string>, emailIds: array<string>] Procurando uma maneira de agrupar (ou talvez acumular?) Esse quadro de dados por visitorid, onde as colunas trackingIds e ...

1 a resposta

Como enviar uma tarefa via API REST?

Estou usando o Datastax Enterprise 4.8.3. Estou tentando implementar um aplicativo baseado em quartzo para enviar remotamente os trabalhos do Spark. Durante minha pesquisa, me deparei com os seguintes links: API REST oculta do Apache ...