Como detectar o UTF-8 na planície C?
Eu estou procurando um trecho de código em C antigo, que detecta que a string dada está na codificação UTF-8. Eu conheço a solução com regex, mas por várias razões, seria melhor evitar usar nada além de C simples nesse caso em particular.
Solução com regex se parece com isso (aviso: várias verificações omitidas):
<code>#define UTF8_DETECT_REGEXP "^([\x09\x0A\x0D\x20-\x7E]|[\xC2-\xDF][\x80-\xBF]|\xE0[\xA0-\xBF][\x80-\xBF]|[\xE1-\xEC\xEE\xEF][\x80-\xBF]{2}|\xED[\x80-\x9F][\x80-\xBF]|\xF0[\x90-\xBF][\x80-\xBF]{2}|[\xF1-\xF3][\x80-\xBF]{3}|\xF4[\x80-\x8F][\x80-\xBF]{2})*$" const char *error; int error_off; int rc; int vect[100]; utf8_re = pcre_compile(UTF8_DETECT_REGEXP, PCRE_CASELESS, &error, &error_off, NULL); utf8_pe = pcre_study(utf8_re, 0, &error); rc = pcre_exec(utf8_re, utf8_pe, str, len, 0, 0, vect, sizeof(vect)/sizeof(vect[0])); if (rc > 0) { printf("string is in UTF8\n"); } else { printf("string is not in UTF8\n") } </code>