Resultados de la búsqueda a petición "beautifulsoup"

2 la respuesta

Cambiar el valor del elemento con BeautifulSoup devuelve el elemento vacío

from BeautifulSoup import BeautifulStoneSoup xml_data = """ <doc> <test>test</test> <foo:bar>Hello world!</foo:bar> </doc> """ soup = BeautifulStoneSoup(xml_data) print soup.prettify() make = soup.find('foo:bar') print make # prints ...

5 la respuesta

Problemas de codificación de Python y BeautifulSoup

Estoy escribiendo un rastreador con Python usando BeautifulSoup, y todo iba bien hasta que me encontré con este sitio: http: //www.elnorte.ec [http://www.elnorte.ec/] Recibo los contenidos con la biblioteca de solicitudes: r = ...

1 la respuesta

eliminar ciertos atributos de las etiquetas HTML

¿Cómo puedo eliminar ciertos atributos como id, estilo, clase, etc. del código HTML? Pensé que podría usar el lxml.html.clean module [http://lxml.de/lxmlhtml.html#cleaning-up-html], pero resultó que solo puedo eliminar atributos de estilo ...

2 la respuesta

Parcar XML no estándar (etiqueta CDATA)

Cuando quiero analizar un documento XML en Python usando la biblioteca BeautifulSoup, me enfrenté a algunos problemas. El documento XML que quiero analizar: <item> <title><![CDATA[Title Sample]]></title> ...

1 la respuesta

¿Cómo descargar texto e imágenes desde URL con Python / urllib / beautifulsoup?

He estado navegando por varias publicaciones aquí, pero no puedo entender cómo descargar imágenes y texto por lotes desde una URL determinada con Python. import urllib,urllib2 import urlparse from BeautifulSoup import BeautifulSoup import os, ...

2 la respuesta

Clean URL con BeautifulSoup

Mi script import BeautifulSoup as bs from BeautifulSoup import BeautifulSoup url_list = sys.argv[1] urls = [tag['href'] for tag ...

5 la respuesta

BeautifulSoup innerhtml?

Digamos que tengo una página con unadiv. Puedo obtener fácilmente ese div consoup.find(). Ahora que tengo el resultado, me gustaría imprimir TODOinnerhtml de esodiv: Quiero decir, necesitaría una cadena con TODAS las etiquetas html y el ...

1 la respuesta

Prese todos los elementos del elemento con elementos secundarios de RSS con beautifulsoup

esde un feed RSS, ¿cómo se obtiene una cadena de todo lo que está dentro de cada articul etiqueta? Ejemplo de entrada (simplificado): <?xml version="1.0" encoding="UTF-8"?> <rss version="2.0"> <channel> <title>Test</title> <item> <title>Hello ...

2 la respuesta

¿Cómo representar el contenido de una etiqueta en unicode en BeautifulSoup?

Esta es una sopa de una página de detalles de publicaciones de WordPress: content = soup.body.find('div', id=re.compile('post')) title = content.h2.extract() item['title'] = unicode(title.string) item['content'] = u''.join(map(unicode, ...

2 la respuesta

Diferencia entre attrMap y attrs en beautifulSoup

Me gustaría saber cuál es la diferencia entreattrMap yattrs in BeautifulSoup [http://www.crummy.com/software/BeautifulSoup/]? Para ser más específicos, qué etiquetas tienenattrs y que tienenattrMap? >>> soup = ...