Jak przekonwertować znaki akcentowane Unicode na czyste ascii bez akcentów?

Question

Jan 02, 2013, 08:28 AM

unicode wget unicode-normalization python

Jak przekonwertować znaki akcentowane Unicode na czyste ascii bez akcentów?

Próbuję pobrać niektóre treści z witryny słownikahttp://dictionary.reference.com/browse/apple?s=t

Problem, jaki mam, polega na tym, że oryginalny akapit ma wszystkie te linie i odwrotne litery, i tak dalej, więc kiedy czytam lokalne pliki, kończę na zabawnych znakach ucieczki, takich jak x85, la7, x8d itp. .

Moje pytanie brzmi: czy istnieje sposób, w jaki mogę przekonwertować wszystkie te znaki ucieczki na ich odpowiednie znaki UTF-8, np. Jeśli istnieje znak „à”, jak przekonwertować go do standardowego „a”?

Kod wywoławczy Pythona:

import os
word = 'apple'
os.system(r'wget.lnk --directory-prefix=G:/projects/words/dictionary/urls/ --output-document=G:\projects\words\dictionary\urls/' + word + '-dict.html http://dictionary.reference.com/browse/' + word)

Używam wget-1.11.4-1 w systemie Windows 7 (nie zabijaj ludzi Linuksa, to było wymaganie klienta), a exe wget jest uruchamiane za pomocą pliku skryptowego Python 2.6.