Como o Spark lê o arquivo com sublinhado do início do nome do arquivo?

Question

Jul 20, 2016, 11:38 AM

Como o Spark lê o arquivo com sublinhado do início do nome do arquivo?

Quando uso o Spark para analisar arquivos de log, percebo que, se o primeiro caractere do nome do arquivo for_ , o resultado estará vazio. Aqui está o meu código de teste:

SparkSession spark = SparkSession
  .builder()
  .appName("TestLog")
  .master("local")
  .getOrCreate();
JavaRDD<String> input = spark.read().text("D:\\_event_2.log").javaRDD();
System.out.println("size : " + input.count());

Se eu modificar o nome do arquivo paraevent_2.log, o código irá executá-lo corretamente. Eu descobri que otext A função é definida como:

@scala.annotation.varargs
def text(paths: String*): Dataset[String] = {
  format("text").load(paths : _*).as[String](sparkSession.implicits.newStringEncoder)
}

Eu acho que pode ser devido a_ sendo scalaplaceholder. Como posso evitar esse problema?