Analiza un documento PDF con ruby

Question

Jan 24, 2015, 03:16 PM

ruby ocr scripting parsing pdf

Analiza un documento PDF con ruby

Tengo varios documentos PDF en una carpeta que tienen una determinada estructura:

Ahora quiero poder analizar la información del PDF. Tenga en cuenta que los párrafos tienen diferentes longitudes.

Obviamente no le pido que resuelva el problema por mí, pero necesito algunos consejos sobre cómo se puede lograr esto.

He usado nokogiri antes y técnicamente necesito algo así pero para archivos PDF.

Entonces el pseudo resultado para mi ejemplo se vería así:

- ItemA
  - Title: ItemA
  - File: 123456789.pdf
  - Image: ImageA.png (the image was stored on disk)
  - Subtitle1: Content for subtitle 1
  - Subtitle2: Content for subtitle 2
  - Subtitle3: Content for subtitle 3
- TitleB
  - [...]

Respuestas a la pregunta(2)

Preguntas populares

0 la respuesta

Cómo ocultar la barra de estado y la barra de navegación cuando toca el dispositivo

0 la respuesta

EmptyStackException

0 la respuesta

Concatenando dos std :: vector: ¿qué método es más eficiente y cómo / por qué?

0 la respuesta

wkhtmltopdf: ¿Es posible combinar archivos PDF?

0 la respuesta

Unirse completo para 3 mesas

¡Eres muy activo! ¡Es genial!

Analiza un documento PDF con ruby

Respuestas a la pregunta(2)

Su respuesta a la pregunta

Preguntas populares