Jak przekonwertować znaki akcentowane Unicode na czyste ascii bez akcentów?
Próbuję pobrać niektóre treści z witryny słownikahttp://dictionary.reference.com/browse/apple?s=t
Problem, jaki mam, polega na tym, że oryginalny akapit ma wszystkie te linie i odwrotne litery, i tak dalej, więc kiedy czytam lokalne pliki, kończę na zabawnych znakach ucieczki, takich jak x85, la7, x8d itp. .
Moje pytanie brzmi: czy istnieje sposób, w jaki mogę przekonwertować wszystkie te znaki ucieczki na ich odpowiednie znaki UTF-8, np. Jeśli istnieje znak „à”, jak przekonwertować go do standardowego „a”?
Kod wywoławczy Pythona:
import os
word = 'apple'
os.system(r'wget.lnk --directory-prefix=G:/projects/words/dictionary/urls/ --output-document=G:\projects\words\dictionary\urls/' + word + '-dict.html http://dictionary.reference.com/browse/' + word)
Używam wget-1.11.4-1 w systemie Windows 7 (nie zabijaj ludzi Linuksa, to było wymaganie klienta), a exe wget jest uruchamiane za pomocą pliku skryptowego Python 2.6.