como acessar e manipular os dados do arquivo pdf no Hadoop?

Eu quero ler o arquivo PDF usando o hadoop, como é possível? Eu sei apenas que o hadoop pode processar apenas arquivos txt, então existe uma maneira de analisar os arquivos PDF em tx

Dê-me uma sugestão.