Resultados de la búsqueda a petición "html-parsing"

1 la respuesta

Cómo obtener HTML de un hermoso objeto de sopa

Tengo la siguiente lista de objetos bs4: >>> listing <div class="listingHeader"> <h2> .... >>> type(listing) <class 'bs4.element.Tag'>Quiero extraer el html sin procesar como una cadena. He intentado: >>> a = listing.contents >>> type(a) <type ...

3 la respuesta

Purificador HTML: eliminar un elemento condicionalmente en función de sus atributos

Segúnla prueba de humo del purificador de HTML [http://htmlpurifier.org/live/smoketests/xssAttacks.php], los URI 'malformados' se descartan ocasionalmente para dejar una etiqueta de anclaje sin atributos, p. <a ...

2 la respuesta

Análisis HTML en Android

Estoy tratando de aprender a analizar HTML, pero como no tengo mucha experiencia en Java o Android, es un poco complicado. Leí el tutorial de análisis XML de IBM y aprendí a analizar un feed RSS. Mi problema es: me gustaría obtener datos de un ...

1 la respuesta

Cómo extraer enlaces html con una palabra coincidente de un sitio web usando python

Tengo una url, digamoshttp://www.bbc.com/news/world/asia/. Justo en esta página quería extraer todos los enlaces que tiene India o INDIA o india (debe ser insensible a mayúsculas y minúsculas). Si hago clic en cualquiera de los enlaces de ...

1 la respuesta

Recuperando todos los enlaces de todas las páginas del resultado de búsqueda de Google usando JSoup

Tengo el siguiente código para analizar HTML en Java usando JSoup. Document linksDoc = null; linksDoc = Jsoup.connect("http://www.google.com/search?q=jbutton").userAgent("Mozilla").get(); Elements titles = linksDoc.select("h3.r > a"); ...

29 la respuesta

¿Opciones para el raspado de HTML? [cerrado]

Estoy pensando en intentarHermosa sopa [http://en.wikipedia.org/wiki/Beautiful_Soup], un paquete de Python para el raspado de HTML. ¿Hay otros paquetes de raspado de HTML que debería mirar? Python no es un requisito, en realidad también estoy ...

1 la respuesta

Jsoup: extracción de texto interno de la etiqueta de anclaje

Aquí está mi problema. Tengo un contenido html: innerText Necesito extraer el "innerText". Mientras intentaba esto en Jsoup, descubrí que el texto interno sale de la etiqueta de anclaje cuando Jsoup lo analiza. Aquí está mi código Document ...

3 la respuesta

Importando bs4 en Python 3.5

He instalado Python 3.5 y Beautifulsoup4. Cuando intento importar bs4, aparece el siguiente error. ¿Hay alguna solución para eso? ¿O debería instalar Python 3.4 en su lugar? Sea muy explícito: soy nuevo en programación. ¡Muchas ...

2 la respuesta

raspar una respuesta de una opción seleccionada en la lista desplegable

Este es un ejemplo de una página que enumera las estadísticas de béisbol de un jugador seleccionado, por defecto al año más reciente (2014, que pronto ...

2 la respuesta

Webcraping de una página de IMDb usando BeautifulSoup

Soy nuevo en WebScraping / Python y BeautifulSoup y tengo dificultades para que mi código funcione. Me gustaría raspar la url:http://m.imdb.com/feature/bornondate [http://m.imdb.com/feature/bornondate]" para obtener el: Nombre de la ...