Resultados da pesquisa a pedido "apache-spark"

2 a resposta

Como usar o Spark SQL DataFrame com flatMap?

Estou usando a API Spark Scala. Eu tenho um Spark SQL DataFrame (lido de um arquivo Avro) com o seguinte esquema: root |-- ids: array (nullable = true) | |-- element: map (containsNull = true) | | |-- key: integer | | |-- value: string ...

7 a resposta

Como depurar o aplicativo spark localmente?

Eu sou muito novo no Spark e gostaria de aprender passo a passo como depurar um aplicativo Spark localmente? Alguém poderia por favor detalhar as etapas necessárias para fazer isso? Posso executar o simpleApp no site spark localmente na linha de ...

1 a resposta

Maneira correta de fazer um Spark Fat Jar usando SBT

Preciso de um Fat Jar com Spark porque estou criando um nó personalizado para o Knime. Basicamente, é um jar independente executado dentro do Knime e presumo que um Jar Jar é a única maneira de gerar um Spark Job local. ...

2 a resposta

Spark - Que tipo de instância é preferido para o cluster do AWS EMR? [fechadas]

Estou executando alguns algoritmos de aprendizado de máquina no cluster EMR Spark. Estou curioso para saber que tipo de instância usar para obter o melhor ganho de custo / desempenho. Para o mesmo nível de preços, posso escolher entre: vCPU ECU ...

4 a resposta

Leia alguns arquivos de parquet ao mesmo tempo no Spark

Eu posso ler alguns arquivos json ao mesmo tempo usando * (estrela): sqlContext.jsonFile('/path/to/dir/*.json')Existe alguma maneira de fazer a mesma coisa com parquet? Estrela não funciona.

3 a resposta

Spark - “pacote sbt” - “value $ não é membro de StringContext” - plugin Scala ausente?

Ao executar o "pacote sbt" na linha de comando para um aplicativo Spark Scala pequeno, estou recebendo o erro de compilação "value $ não é membro do StringContext" na seguinte linha de código: val joined = ordered.join(empLogins, $"login" === ...

1 a resposta

Ordem por valor no par SparkRDD de (Key, Value) em que o valor é do spark-sql

Eu criei um mapa como este - val b = a.map(x => (x(0), x) )Aqui b é do tipo org.apache.spark.rdd.RDD[(Any, org.apache.spark.sql.Row)] Como posso classificar o PairRDD em cada chave usando um campo da linha de valor?Depois disso, desejo executar ...

1 a resposta

';' esperado, mas 'importação' encontrada - Scala e Spark

Estou tentando trabalhar com o Spark e o Scala, compilando um aplicativo independente. Não sei por que estou recebendo esse erro: topicModel.scala:2: ';' expected but 'import' found. [error] import org.apache.spark.mllib.clustering.LDA [error] ^ ...

1 a resposta

A variável LinkedHashMap não pode ser acessada fora do loop foreach

Aqui está o meu código. var link = scala.collection.mutable.LinkedHashMap[String, String]() var fieldTypeMapRDD = fixedRDD.mapPartitionsWithIndex((idx, itr) => itr.map(s => (s(8), s(9)))) fieldTypeMapRDD.foreach { i => println(i) link.put(i._1, ...

2 a resposta

spark + sbt-assembly: “deduplicado: conteúdo de arquivo diferente encontrado no seguinte”

Corri o aplicativo spark e quero colocar as classes de teste no frasco de gordura. O que é estranho é que executei o "sbt assembly" com êxito, mas falhei quando executei o "sbt test: assembly". eu tenteisbt-assembly: incluindo classes de ...