Resultados de la búsqueda a petición "apache-tika"

3 la respuesta

Es posible extraer texto por página para archivos word / pdf usando Apache Tika?

Toda la documentación que puedo encontrar parece sugerir que solo puedo extraer todo el contenido del archivo. Pero necesito extraer páginas individualmente. ¿Necesito escribir mi propio analizador para eso? ¿Hay algún método obvio que me falta?

4 la respuesta

¿Cómo analizar html con nutch e indexar etiquetas específicas para solr?

he instalado nutch y solr para rastrear un sitio web y buscar en él; como saben, podemos indexar etiquetas meta de páginas web en solr con el complemento par...

4 la respuesta

¿Cómo crear un modelo personalizado utilizando OpenNLP?

estoy tratando deextraer entidades me gustaNombres, Habilidades del documento usandoAPI de Java OpenNLP. perono está extrayendo nombres propios. Estoy usando...

4 la respuesta

Obtener el subtipo MimeType con Apache tika

Necesitaría obtener iana.org MediaType en lugar de application / zip o application / x-tika-msoffice para documentos como, odt, ppt, pptx, xlsx, etc. Si observa mimetypes.xml, hay elementos mimeType compuestos por iana.org mime-type y ...

5 la respuesta

Lea el contenido de los archivos que están dentro del archivo Zip

Estoy tratando de crear un programa Java simple que lee y extrae el contenido de los archivos dentro del archivo zip. El archivo zip contiene 3 archivos (txt...

5 la respuesta

Indexing PDF con Solr

¿Alguien puede señalarme un tutorial? Mi experiencia principal con Solr es indexar archivos CSV. Pero no puedo encontrar ninguna instrucción / tutorial simple que me diga qué debo hacer para indexar archivos PDF. He visto esto:http: ...