Resultados de la búsqueda a petición "text-extraction"

3 la respuesta

Extraer texto del archivo XML a través de un archivo por lotes

Tengo que extraer cierto texto de un archivo XML a través de un archivo por lotes. Una de las partes que necesito extraer es entre etiquetas de cadena (<string>example1</string>) y el otro es entre etiquetas de datos (<data>example2</data>) ...

4 la respuesta

Rasgar texto del archivo dentro de etiquetas HTML

Tengo un archivo del que quiero extraer fechas, es un archivo fuente HTML, por lo que está lleno de código y frases que no necesito. Necesito extraer cada instancia de una fecha que está envuelta en una etiqueta HTML específica: abbr title = ...

2 la respuesta

Extraer texto de PDF con Poppler (C ++)

Estoy tratando de abrirme paso a través de Poppler y su (falta de) documentación. Lo que quiero hacer es algo muy simple: abrir un archivo PDF y leer el texto que contiene. Luego voy a procesar el texto, pero eso realmente no importa ...

8 la respuesta

Extracción de texto de HTML Java

Estoy trabajando en un programa que descarga páginas HTML y luego selecciona parte de la información y la escribe en otro archivo.Quiero extraer la informaci...

15 la respuesta

¿Cómo extraer texto de un PDF? [cerrado]

¿Alguien puede recomendar una biblioteca / API para extraer el texto y las imágenes de un PDF? Necesitamos poder llegar al texto que se encuentra en regiones previamente conocidas del documento, por lo que la API deberá proporcionarnos ...

10 la respuesta

php: Obtenga texto sin formato de html - simplehtmldom o php strip_tags?

Estoy buscando obtener el texto plano de html. ¿Cuál debo elegir, php strip_tags [http://php.net/manual/en/function.strip-tags.php] o simplehtmldom [http://simplehtmldom.sourceforge.net/] extracción de texto sin formato? One pro for ...

13 la respuesta

Módulo de Python para convertir PDF a texto [cerrado]

¿Cuáles son los mejores módulos de Python para convertir archivos PDF en texto?

3 la respuesta

Extraer contenido / texto puro de páginas HTML al excluir la navegación y el contenido de Chrome

Estoy rastreando sitios web de noticias y quiero extraer el título de las noticias, el resumen de las noticias (primer párrafo), etc.Me conecté al código del...

2 la respuesta

Awk no coincide con todos coincide con todas mis entradas

Estoy tratando de hacer "un script", esencialmente un comando awk, para extraer los prototipos de funciones del código C en un archivo .c para generar automáticamente un encabezado .h. Soy nuevo con awk, así que no obtengo todos los ...

12 la respuesta

Utilizando boilerpipe para extraer artículos que no están en inglés

Estoy tratando de usar boilerpipe [http://code.google.com/p/boilerpipe/] java library, para extraer artículos de noticias de un conjunto de sitios web. Funciona muy bien para textos en inglés, pero para texto con caracteres especiales, por ...