Resultados da pesquisa a pedido "apache-spark"
Como usar o Spark SQL DataFrame com flatMap?
Estou usando a API Spark Scala. Eu tenho um Spark SQL DataFrame (lido de um arquivo Avro) com o seguinte esquema: root |-- ids: array (nullable = true) | |-- element: map (containsNull = true) | | |-- key: integer | | |-- value: string ...
Como depurar o aplicativo spark localmente?
Eu sou muito novo no Spark e gostaria de aprender passo a passo como depurar um aplicativo Spark localmente? Alguém poderia por favor detalhar as etapas necessárias para fazer isso? Posso executar o simpleApp no site spark localmente na linha de ...
Maneira correta de fazer um Spark Fat Jar usando SBT
Preciso de um Fat Jar com Spark porque estou criando um nó personalizado para o Knime. Basicamente, é um jar independente executado dentro do Knime e presumo que um Jar Jar é a única maneira de gerar um Spark Job local. ...
Spark - Que tipo de instância é preferido para o cluster do AWS EMR? [fechadas]
Estou executando alguns algoritmos de aprendizado de máquina no cluster EMR Spark. Estou curioso para saber que tipo de instância usar para obter o melhor ganho de custo / desempenho. Para o mesmo nível de preços, posso escolher entre: vCPU ECU ...
Leia alguns arquivos de parquet ao mesmo tempo no Spark
Eu posso ler alguns arquivos json ao mesmo tempo usando * (estrela): sqlContext.jsonFile('/path/to/dir/*.json')Existe alguma maneira de fazer a mesma coisa com parquet? Estrela não funciona.
Spark - “pacote sbt” - “value $ não é membro de StringContext” - plugin Scala ausente?
Ao executar o "pacote sbt" na linha de comando para um aplicativo Spark Scala pequeno, estou recebendo o erro de compilação "value $ não é membro do StringContext" na seguinte linha de código: val joined = ordered.join(empLogins, $"login" === ...
Ordem por valor no par SparkRDD de (Key, Value) em que o valor é do spark-sql
Eu criei um mapa como este - val b = a.map(x => (x(0), x) )Aqui b é do tipo org.apache.spark.rdd.RDD[(Any, org.apache.spark.sql.Row)] Como posso classificar o PairRDD em cada chave usando um campo da linha de valor?Depois disso, desejo executar ...
';' esperado, mas 'importação' encontrada - Scala e Spark
Estou tentando trabalhar com o Spark e o Scala, compilando um aplicativo independente. Não sei por que estou recebendo esse erro: topicModel.scala:2: ';' expected but 'import' found. [error] import org.apache.spark.mllib.clustering.LDA [error] ^ ...
A variável LinkedHashMap não pode ser acessada fora do loop foreach
Aqui está o meu código. var link = scala.collection.mutable.LinkedHashMap[String, String]() var fieldTypeMapRDD = fixedRDD.mapPartitionsWithIndex((idx, itr) => itr.map(s => (s(8), s(9)))) fieldTypeMapRDD.foreach { i => println(i) link.put(i._1, ...
spark + sbt-assembly: “deduplicado: conteúdo de arquivo diferente encontrado no seguinte”
Corri o aplicativo spark e quero colocar as classes de teste no frasco de gordura. O que é estranho é que executei o "sbt assembly" com êxito, mas falhei quando executei o "sbt test: assembly". eu tenteisbt-assembly: incluindo classes de ...