É possível extrair texto por página para arquivos word / pdf usando o Apache Tik
Toda a documentação que encontro parece sugerir que só posso extrair o conteúdo do arquivo inteiro. Mas preciso extrair páginas individualmente. Preciso escrever meu próprio analisador para isso? Existe algum método óbvio que estou faltando?