Spark SQL - carregando arquivos csv / psv com alguns registros malformados

Question

Dec 18, 2015, 03:04 AM

csv apache-spark apache-spark-sql parquet

Spark SQL - carregando arquivos csv / psv com alguns registros malformados

Estamos carregando hierarquias de diretórios de arquivos com o Spark e convertendo-os em Parquet. Existem dezenas de gigabytes em centenas de arquivos separados por canal. Alguns são bem grandes.

Cada 100, digamos, 100º arquivo possui uma ou duas linhas que possuem um delimitador extra que faz com que todo o processo (ou o arquivo) seja interrompido.

Estamos carregando usando:

sqlContext.read
        .format("com.databricks.spark.csv")
        .option("header", format("header"))
        .option("delimiter", format("delimeter"))
        .option("quote", format("quote"))
        .option("escape", format("escape"))
        .option("charset", "UTF-8")
        // Column types are unnecessary for our current use cases.
        //.option("inferschema", "true")
        .load(glob)

Existe alguma extensão ou um mecanismo de manipulação de eventos com o Spark que possamos anexar à lógica que lê linhas, que, se a linha malformada for encontrada, apenas ignore a linha em vez de falhar no processo?

(Estamos planejando fazer mais pré-processamento, mas essa seria a correção mais imediata e crítica.)