Resultados da pesquisa a pedido "apache-spark"
Como configurar o Spark no Windows?
Estou tentando configurar o Apache Spark no Windows. Depois de pesquisar um pouco, entendo que o modo autônomo é o que eu quero. Quais binários eu baixa para executar o Apache spark no Windows? Vejo distribuições com hadoop e cdh na página de ...
Analisar CSV como DataFrame / DataSet com Apache Spark e Java
Eu sou novo no spark, e quero usar o agrupar por e reduzir para encontrar o seguinte em CSV (uma linha por funcionário): Department, Designation, costToCompany, State Sales, Trainee, 12000, UP Sales, Lead, 32000, AP Sales, Lead, 32000, LA Sales, ...
SQL sobre Spark Streaming
Este é o código para executar consultas SQL simples no Spark Streaming. import org.apache.spark.streaming.{Seconds, StreamingContext} import org.apache.spark.streaming.StreamingContext._ import org.apache.spark.sql.SQLContext import ...
Por que o trabalho do Spark falha com "muitos arquivos abertos"?
Eu recebo "muitos arquivos abertos" durante a fase aleatória do meu trabalho no Spark. Por que meu trabalho está abrindo tantos arquivos? Que medidas posso tomar para tentar tornar meu trabalho bem-sucedido?
Até onde vai o cache do Spark RDD?
Diga que tenho trêsRDD função de transformação chamadardd1: def rdd2 = rdd1.f1 def rdd3 = rdd2.f2 def rdd4 = rdd3.f3Agora eu quero colocar em cacherdd4então eu ligordd4.cache(). Minha pergunta: Somente o resultado da ação emrdd4 em cache ou ...
Aguarde por tempo indeterminado com "Solicitado para enviar locais de saída do mapa para embaralhar"
Meus trabalhos geralmente ficam com esse tipo de mensagem: 14/09/01 00:32:18 INFO spark.MapOutputTrackerMasterActor: Asked to send map output locations for shuffle 0 to spark@*:37619Seria ótimo se alguém pudesse explicar o que o Spark está ...
Como configurar o hbase no spark?
Quais são as etapas para conectar o spark ao hbase? Eu tenho os endereços principais para ambos. Acabei de adicionar o endereço hbase no caminho de classe do spark?
Como você executa o bloqueio de E / S no trabalho do apache spark?
E se, ao percorrer o RDD, precisar calcular valores no conjunto de dados chamando o serviço externo (bloqueio)? Como você acha que isso poderia ser alcançado? valores val:Future[RDD[Double]] = Future sequence tasks Eu tentei criar uma lista de ...
java.io.EOFException no Spark EC2 Cluster ao enviar a tarefa programaticamente
realmente preciso da sua ajuda para entender o que estou fazendo de errado. A intenção do meu experimento é executar o trabalho de faísca programaticamente em vez de usar ./spark-shell ou ./spark-submit (ambos funcionam para mim) Ambiente: ...
Consultando dados no Cassandra via Spark em um projeto Java Maven
Estou tentando criar um código simples, onde crio um esquema, insiro algumas tabelas e, em seguida, puxo algumas informações e as imprimo. No entanto, estou recebendo um erro. Estou usando o conector de ignição cassandra Datastax. Eu tenho usado ...