Como configurar um ambiente de desenvolvimento local para que o Scala Spark ETL seja executado no AWS Glue?

Question

Mar 13, 2018, 11:42 AM

Como configurar um ambiente de desenvolvimento local para que o Scala Spark ETL seja executado no AWS Glue?

Eu gostaria de poder escreverScala no meu IDE local e implante-o no AWS Glue como parte de um processo de construção. Mas estou tendo problemas para encontrar as bibliotecas necessárias para criar oGlueApp esqueleto gerado pela AWS.

oaws-java-sdk-cola não contém as classes importadas e não consigo encontrar essas bibliotecas em nenhum outro lugar. Embora eles devam existir em algum lugar, mas talvez sejam apenas uma porta Java / Scala desta biblioteca:aws-cola-libs

O código de escala de modelo da AWS:

import com.amazonaws.services.glue.GlueContext
import com.amazonaws.services.glue.MappingSpec
import com.amazonaws.services.glue.errors.CallSite
import com.amazonaws.services.glue.util.GlueArgParser
import com.amazonaws.services.glue.util.Job
import com.amazonaws.services.glue.util.JsonOptions
import org.apache.spark.SparkContext
import scala.collection.JavaConverters._

object GlueApp {
  def main(sysArgs: Array[String]) {
    val spark: SparkContext = new SparkContext()
    val glueContext: GlueContext = new GlueContext(spark)
    // @params: [JOB_NAME]
    val args = GlueArgParser.getResolvedOptions(sysArgs, Seq("JOB_NAME").toArray)
    Job.init(args("JOB_NAME"), glueContext, args.asJava)
    // @type: DataSource
    // @args: [database = "raw-tickers-oregon", table_name = "spark_delivery_2_1", transformation_ctx = "datasource0"]
    // @return: datasource0
    // @inputs: []
    val datasource0 = glueContext.getCatalogSource(database = "raw-tickers-oregon", tableName = "spark_delivery_2_1", redshiftTmpDir = "", transformationContext = "datasource0").getDynamicFrame()
    // @type: ApplyMapping
    // @args: [mapping = [("exchangeid", "int", "exchangeid", "int"), ("data", "struct", "data", "struct")], transformation_ctx = "applymapping1"]
    // @return: applymapping1
    // @inputs: [frame = datasource0]
    val applymapping1 = datasource0.applyMapping(mappings = Seq(("exchangeid", "int", "exchangeid", "int"), ("data", "struct", "data", "struct")), caseSensitive = false, transformationContext = "applymapping1")
    // @type: DataSink
    // @args: [connection_type = "s3", connection_options = {"path": "s3://spark-ticker-oregon/target", "compression": "gzip"}, format = "json", transformation_ctx = "datasink2"]
    // @return: datasink2
    // @inputs: [frame = applymapping1]
    val datasink2 = glueContext.getSinkWithFormat(connectionType = "s3", options = JsonOptions("""{"path": "s3://spark-ticker-oregon/target", "compression": "gzip"}"""), transformationContext = "datasink2", format = "json").writeDynamicFrame(applymapping1)
    Job.commit()
  }
}

E abuild.sbt Comecei a montar uma compilação local:

name := "aws-glue-scala"

version := "0.1"

scalaVersion := "2.11.12"

updateOptions := updateOptions.value.withCachedResolution(true)

libraryDependencies += "org.apache.spark" %% "spark-core" % "2.2.1"

A documentação paraAPI do AWS Glue Scala parece descrever uma funcionalidade semelhante à disponível na biblioteca do AWS Glue Python. Então, talvez tudo o que seja necessário seja baixar e criar a biblioteca PySpark AWS Glue e adicioná-la no caminho de classe? Talvez seja possível, já que a biblioteca python Glueusa Py4J.