Resultados da pesquisa a pedido "apache-spark"
Spark: espaço insuficiente para armazenar em cache o vermelho no contêiner enquanto ainda resta muita memória total de armazenamento
Eu tenho um cluster de 30 nós, cada nó tem 32 núcleos, 240 G de memória (instância da AWS cr1.8xlarge). Eu tenho as seguintes configurações: --driver-memory 200g --driver-cores 30 --executor-memory 70g --executor-cores 8 --num-executors 90Eu ...
Problemas de configuração do Google Cloud Dataproc
Eu tenho encontrado vários problemas em algumas modelagens de tópicos do Spark LDA (principalmente erros de desassociação em intervalos aparentemente aleatórios) que estou executando, o que eu acho principalmente relacionado à alocação ...
Erro de trabalho do Spark: YarnAllocator: Status de saída: -100. Diagnóstico: Contêiner liberado em um nó * perdido *
Estou executando um trabalho no AWS-EMR 4.1, Spark 1.5 com a seguinte conf: spark-submit --deploy-mode cluster --master yarn-cluster --driver-memory 200g --driver-cores 30 --executor-memory 70g --executor-cores 8 --num-executors 90 --conf ...
Por que meu BroadcastHashJoin é mais lento que ShuffledHashJoin no Spark
Eu executo uma junção usando umjavaHiveContext no Spark. A mesa grande é de 1,76Gb e tem 100 milhões de registros. A segunda tabela é 273Mb e possui 10 milhões de registros. Eu recebo umJavaSchemaRDD e eu ligocount() nele: String ...
Por que o compilador Scala falha com "o objeto SparkConf no pacote spark não pode ser acessado no pacote org.apache.spark"?
Não consigo acessar oSparkConf Na embalagem. Mas eu já importei oimport org.apache.spark.SparkConf. Meu código é: import org.apache.spark.SparkContext import org.apache.spark.SparkContext._ import org.apache.spark.SparkConf import ...
Saída do trabalho Dataproc Spark no Google Cloud Logging
Existe uma maneira de enviar a saída dos trabalhos do Dataproc Spark para o registro no Google Cloud?Conforme explicado nos documentos do Dataproc [https://cloud.google.com/dataproc/driver-output]a saída do driver da tarefa (o mestre de uma ...
Operar em elementos vizinhos no RDD no Spark
Como eu tenho uma coleção: List(1, 3,-1, 0, 2, -4, 6)É fácil classificá-lo como: List(-4, -1, 0, 1, 2, 3, 6)Então, eu posso construir uma nova coleção calculando 6 - 3, 3 - 2, 2 - 1, 1 - 0 e assim por diante: for(i <- 0 to list.length -2) ...
Spark Word2vec matemática de vetor
Eu estava olhando para oexemplo [http://spark.apache.org/docs/latest/mllib-feature-extraction.html#example]do site Spark para Word2Vec: val input = sc.textFile("text8").map(line => line.split(" ").toSeq) val word2vec = new Word2Vec() val model = ...
Como agregar valores na coleção após groupBy?
Eu tenho um quadro de dados com esquema como tal: [visitorId: string, trackingIds: array<string>, emailIds: array<string>] Procurando uma maneira de agrupar (ou talvez acumular?) Esse quadro de dados por visitorid, onde as colunas trackingIds e ...
Como enviar uma tarefa via API REST?
Estou usando o Datastax Enterprise 4.8.3. Estou tentando implementar um aplicativo baseado em quartzo para enviar remotamente os trabalhos do Spark. Durante minha pesquisa, me deparei com os seguintes links: API REST oculta do Apache ...