Como o Spark lê o arquivo com sublinhado do início do nome do arquivo?
Quando uso o Spark para analisar arquivos de log, percebo que, se o primeiro caractere do nome do arquivo for_
, o resultado estará vazio. Aqui está o meu código de teste:
SparkSession spark = SparkSession
.builder()
.appName("TestLog")
.master("local")
.getOrCreate();
JavaRDD<String> input = spark.read().text("D:\\_event_2.log").javaRDD();
System.out.println("size : " + input.count());
Se eu modificar o nome do arquivo paraevent_2.log
, o código irá executá-lo corretamente. Eu descobri que otext
A função é definida como:
@scala.annotation.varargs
def text(paths: String*): Dataset[String] = {
format("text").load(paths : _*).as[String](sparkSession.implicits.newStringEncoder)
}
Eu acho que pode ser devido a_
sendo scalaplaceholder
. Como posso evitar esse problema?