Utilizando boilerpipe para extraer artículos que no están en inglés

Question

Feb 13, 2012, 12:51 PM

Utilizando boilerpipe para extraer artículos que no están en inglés

Estoy tratando de usar boilerpipe java library, para extraer artículos de noticias de un conjunto de sitios web. Funciona muy bien para textos en inglés, pero para texto con caracteres especiales, por ejemplo, palabras con acento (historia), estos caracteres especiales no se extraen correctamente. Creo que es un problema de codificación.

En las preguntas frecuentes de boilerpipe, dice "Si extrae texto que no está en inglés, es posible que deba cambiar algunos parámetros" y luego se refiere a unpape. No encontré ninguna solución en este documento.

Mi pregunta es, ¿hay algún parámetro cuando uso boilerpipe donde puedo especificar la codificación? ¿Hay alguna forma de dar la vuelta y obtener el texto correctamente?

Cómo estoy usando la biblioteca: (primer intento basado en la URL):

URL url = new URL(link);
String article = ArticleExtractor.INSTANCE.getText(url);

(segundo en el código fuente HTLM)

String article = ArticleExtractor.INSTANCE.getText(html_page_as_string);

Respuestas a la pregunta(12)

Preguntas populares

0 la respuesta

¿Qué son los grupos de equilibrio de expresiones regulares?

0 la respuesta

Agregar la vista de un controlador de vista secundario a una subvista del controlador de vista principal

0 la respuesta

Ámbitos restringidos de Google Apps Script

0 la respuesta

Qué miembro del sindicato se activa después de la colocación nueva

0 la respuesta

PHPMailer $ mail-> De los encabezados que no funcionan con gmail

¡Eres muy activo! ¡Es genial!

Utilizando boilerpipe para extraer artículos que no están en inglés

Respuestas a la pregunta(12)

Su respuesta a la pregunta

Preguntas populares