Es posible extraer texto por página para archivos word / pdf usando Apache Tika?

Question

Apr 28, 2011, 10:53 PM

Es posible extraer texto por página para archivos word / pdf usando Apache Tika?

Toda la documentación que puedo encontrar parece sugerir que solo puedo extraer todo el contenido del archivo. Pero necesito extraer páginas individualmente. ¿Necesito escribir mi propio analizador para eso? ¿Hay algún método obvio que me falta?

Deja tu comentario