Como converter caracteres acentuados unicode para ascii puro sem acentos?

Question

Jan 02, 2013, 08:28 AM

python wget unicode unicode-normalization

Como converter caracteres acentuados unicode para ascii puro sem acentos?

Estou tentando baixar algum conteúdo de um site de dicionário comohttp://dictionary.reference.com/browse/apple?s=t

O problema que estou tendo é que o parágrafo original tem todas aquelas linhas rabiscadas, e letras invertidas, e tal, então quando eu leio os arquivos locais acabo com aqueles personagens engraçados de escape como \ x85, \ xa7, \ x8d, etc .

A minha pergunta é, existe alguma maneira eu posso converter todos esses caracteres de escape em seus respectivos caracteres UTF-8, por exemplo, se há um 'à' como faço para converter isso em um padrão 'a'?

Código de chamada do Python:

import os
word = 'apple'
os.system(r'wget.lnk --directory-prefix=G:/projects/words/dictionary/urls/ --output-document=G:\projects\words\dictionary\urls/' + word + '-dict.html http://dictionary.reference.com/browse/' + word)

Estou usando o wget-1.11.4-1 em um sistema Windows 7 (não me matem pessoas Linux, era um requisito do cliente), e o wget exe está sendo disparado com um arquivo de script do Python 2.6.