Aviso gerado pela inserção de unicode de 4 bytes no mysql

Question

May 29, 2012, 01:53 PM

Aviso gerado pela inserção de unicode de 4 bytes no mysql

Veja o seguinte:

/home/kinka/workspace/py/tutorial/tutorial/pipelines.py:33: Warning: Incorrect string 
value: '\xF0\x9F\x91\x8A\xF0\x9F...' for column 't_content' at row 1
n = self.cursor.execute(self.sql, (item['topic'], item['url'], item['content']))

A corda'\xF0\x9F\x91\x8A, na verdade, é um unicode de 4 bytes:u'\U0001f62a'. O conjunto de caracteres do mysql é utf-8, mas inserindo unicode de 4 bytes truncará a string inserida. Eu pesquisei por tal problema e descobri que o mysql em 5.5.3 não suporta unicode de 4 bytes, e infelizmente o meu é 5.5.224. Eu não quero atualizar o servidor mysql, então eu só quero filtrar o unicode de 4 bytes em python, eu tentei usar a expressão regular, mas falhou. Então, alguma ajuda?