Como converter caracteres acentuados unicode para ascii puro sem acentos?
Estou tentando baixar algum conteúdo de um site de dicionário comohttp://dictionary.reference.com/browse/apple?s=t
O problema que estou tendo é que o parágrafo original tem todas aquelas linhas rabiscadas, e letras invertidas, e tal, então quando eu leio os arquivos locais acabo com aqueles personagens engraçados de escape como \ x85, \ xa7, \ x8d, etc .
A minha pergunta é, existe alguma maneira eu posso converter todos esses caracteres de escape em seus respectivos caracteres UTF-8, por exemplo, se há um 'à' como faço para converter isso em um padrão 'a'?
Código de chamada do Python:
import os
word = 'apple'
os.system(r'wget.lnk --directory-prefix=G:/projects/words/dictionary/urls/ --output-document=G:\projects\words\dictionary\urls/' + word + '-dict.html http://dictionary.reference.com/browse/' + word)
Estou usando o wget-1.11.4-1 em um sistema Windows 7 (não me matem pessoas Linux, era um requisito do cliente), e o wget exe está sendo disparado com um arquivo de script do Python 2.6.