Это очень мало объяснений. Хью, я считаю твой код более убедительным, чем цитируемый пост. Нет, не в ограниченных случаях можно использовать молоток на винте вместо отвертки: каждый раз, когда нужно, чтобы программа работала быстрее, вы увидите это в редактировании моего поста.
му, когда я решил разобрать контент с сайта. Например,http://allrecipes.com/Recipe/Slow-Cooker-Pork-Chops-II/Detail.aspx
Я хочу разобрать ингредиенты в текстовый файл. Ингредиенты находятся в:
<div class = "ингридиенты" style = "margin-top: 10px;">
и внутри этого, каждый ингредиент хранится между
<li class = "plaincharacterwrap">
Кто-то был достаточно хорош, чтобы предоставлять код с помощью регулярных выражений, но это сбивает с толку, когда вы переходите с одного сайта на другой. Поэтому я хотел использовать Beautiful Soup, поскольку в нем много встроенных функций. Только я не могу понять, как это сделать.
Код:
import re
import urllib2,sys
from BeautifulSoup import BeautifulSoup, NavigableString
html = urllib2.urlopen("http://allrecipes.com/Recipe/Slow-Cooker-Pork-Chops-II/Detail.aspx")
soup = BeautifulSoup(html)
try:
ingrdiv = soup.find('div', attrs={'class': 'ingredients'})
except IOError:
print 'IO error'
Это как ты начинаешь? Я хочу найти фактический класс div, а затем разобрать все ингредиенты, находящиеся в классе li.
Любая помощь будет оценена! Спасибо!