Protocolos tampones y UTF-8.

Question

Jan 26, 2010, 02:52 PM

unicode protocol-buffers c++utf-8 portability

Protocolos tampones y UTF-8.

La historia de los Esquemas de codificación / sistemas operativos múltiples y Endian-nes ha llevado a un lío en términos de codificación de todas las formas de datos de cadena (- es decir, todos los alfabetos); por esta razón, los búferes de protocolo solo tratan con ASCII o UTF-8 en sus tipos de cadena, y no puedo ver ninguna sobrecarga polimórfica que acepte el wstring de C ++. Entonces, la pregunta es ¿cómo se espera que una de ellas obtenga una cadena UTF-16 en un búfer de protocolo?

Presumiblemente, necesito mantener los datos como una cadena en el código de mi aplicación y luego realizar una conversión de UTF-8 antes de meterlos (o extraerlos) del mensaje. ¿Cuál es la forma portátil más sencilla de Windows / Linux para hacer esto (una llamada a una sola función de una biblioteca bien soportada sería mi día)?

Los datos se originarán en varios servidores web (Linux y Windows) y eventualmente terminarán en SQL Server (y posiblemente en otros puntos finales).

- editar 1--

La sugerencia de Mark Wilkins parece encajar en el proyecto de ley, tal vez alguien que tenga experiencia con la biblioteca pueda publicar un fragmento de código, desde wstring a UTF-8, para poder evaluar lo fácil que será.

- editar 2 -

La sugerencia de Sth aún más. Voy a investigar aún más la serialización de impulso.