Python ElementTree не будет преобразовывать неразрывные пробелы при использовании UTF-8 для вывода

Question

May 18, 2012, 03:40 PM

Python ElementTree не будет преобразовывать неразрывные пробелы при использовании UTF-8 для вывода

Я пытаюсь проанализировать, манипулировать и выводить HTML, используя Python ElementTree:

import sys
from cStringIO  import StringIO
from xml.etree  import ElementTree as ET
from htmlentitydefs import entitydefs

source = StringIO("""<html>
<body>
<p>Less than &lt;</p>
<p>Non-breaking space &nbsp;</p>
</body>
</html>""")

parser = ET.XMLParser()
parser.parser.UseForeignDTD(True)
parser.entity.update(entitydefs)
etree = ET.ElementTree()

tree = etree.parse(source, parser=parser)
for p in tree.findall('.//p'):
    print ET.tostring(p, encoding='UTF-8')

Когда я запускаю это с помощью Python 2.7 на Mac OS X 10.6, я получаю:

<p>Less than &lt;</p>

Traceback (most recent call last):
  File "bar.py", line 20, in <module>
    print ET.tostring(p, encoding='utf-8')
  File "/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/xml/etree/ElementTree.py", line 1120, in tostring
    ElementTree(element).write(file, encoding, method=method)
  File "/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/xml/etree/ElementTree.py", line 815, in write
    serialize(write, self._root, encoding, qnames, namespaces)
  File "/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/xml/etree/ElementTree.py", line 931, in _serialize_xml
    write(_escape_cdata(text, encoding))
  File "/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/xml/etree/ElementTree.py", line 1067, in _escape_cdata
    return text.encode(encoding, "xmlcharrefreplace")
UnicodeDecodeError: 'ascii' codec can't decode byte 0xa0 in position 19: ordinal not in range(128)

Я думал, что указание "кодировка =" UTF-8 "" будет заботиться о неразрывном пробеле, но, очевидно, это не так. Что я должен сделать вместо этого?

Python ElementTree не будет преобразовывать неразрывные пробелы при использовании UTF-8 для вывода

Ответы на вопрос(5)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Python ElementTree не будет преобразовывать неразрывные пробелы при использовании UTF-8 для вывода

Ответы на вопрос(5)

Ваш ответ на вопрос

Популярные вопросы