Wie konvertiert man Unicode-Zeichen mit Akzenten in reine ASCII-Zeichen ohne Akzente?

Question

Jan 02, 2013, 08:28 AM

python unicode unicode-normalization wget

Wie konvertiert man Unicode-Zeichen mit Akzenten in reine ASCII-Zeichen ohne Akzente?

Ich versuche, Inhalte von einer Wörterbuch-Website wie zhttp://dictionary.reference.com/browse/apple?s=t

Das Problem, das ich habe, ist, dass der ursprüngliche Absatz all diese verzerrten Linien und umgekehrten Buchstaben hat, und so, wenn ich die lokalen Dateien lese, ende ich mit diesen lustigen Escapezeichen wie \ x85, \ xa7, \ x8d, etc .

Meine Frage ist, gibt es eine Möglichkeit, wie ich all diese Escape-Zeichen in ihre jeweiligen UTF-8-Zeichen konvertieren kann, z. B. wenn es ein 'à' gibt, wie kann ich das in ein Standard-'a 'konvertieren?

Python-Aufrufcode:

import os
word = 'apple'
os.system(r'wget.lnk --directory-prefix=G:/projects/words/dictionary/urls/ --output-document=G:\projects\words\dictionary\urls/' + word + '-dict.html http://dictionary.reference.com/browse/' + word)

Ich verwende wget-1.11.4-1 auf einem Windows 7-System (töte mich nicht unter Linux, es war eine Client-Anforderung) und die wget-exe wird mit einer Python 2.6-Skriptdatei abgefeuert.