Cómo aplicar funciones <cctype> en archivos de texto con diferente codificación en c ++

Question

Apr 07, 2018, 11:28 AM

c++linux file-io character-encoding locale

Cómo aplicar funciones <cctype> en archivos de texto con diferente codificación en c ++

Me gustaría dividir algunos archivos (alrededor de 1000) en palabras y eliminar números y signos de puntuación. Luego procesaré estas palabras simbólicas en consecuencia ... Sin embargo, los archivos sonprincipalmente en idioma alemán y están codificados en diferentes tipos:

ISO-8859-1ISO Latin-1ASCIIUTF-8

El problema que estoy enfrentando es que no puedo encontrar una forma correcta de aplicarFunciones de conversión de caracteres comotolower() y también obtengo algunos iconos extraños en la terminal cuando usostd::cout aUbuntu linux.

Por ejemplo, en archivos que no son UTF-8, la palabrafranzösische se muestra comofranz�sische, für comof�r etc ... Además, palabras comoÖrebro oÖsterreich son ignorados portolower(). Por lo que sé el"Unicode replacement character" � (U+FFFD) se inserta para cualquier carácter que el programa no pueda decodificar correctamente al tratar de manejar Unicode.

Cuando abro archivos UTF-8 no obtengo caracteres extraños, pero todavía no puedo convertir caracteres especiales en mayúsculas comoÖ a minúsculas ... yo solíastd::setlocale(LC_ALL, "de_DE.iso88591"); y algunas otras opciones que he encontrado en stackoverflow pero aún no obtengo el resultado deseado.

Mi suposición sobre cómo debería resolver esto es:

Verifique la codificación del archivo que está por abrirseabrir archivo de acuerdo con su codificación específicaConvertir entrada de archivo a UTF-8Procesar archivo y aplicartolower() etc.

Es lo anterioralgorithm factible o la complejidad se disparará?

¿Cuál es el enfoque correcto para este problema? ¿Cómo puedo abrir los archivos con algún tipo de opciones de codificación?

1. ¿Debería mi sistema operativo tener la configuración regional correspondiente habilitada como variable global para procesar (sin molestar cómo la consola lo muestra) el texto? (en Linux, por ejemplo, no tengo habilitado de_DE cuando uso-locale -a)

2. ¿Este problema solo es visible debido a la codificación predeterminada del terminal? ¿Debo seguir otros pasos antes de procesar la cadena extraída normalmente en c ++?

Mi configuración regional de Linux:

LANG=en_US.UTF-8
LANGUAGE=en_US
LC_CTYPE="en_US.UTF-8"
LC_NUMERIC=el_GR.UTF-8
LC_TIME=el_GR.UTF-8
LC_COLLATE="en_US.UTF-8"
LC_MONETARY=el_GR.UTF-8
LC_MESSAGES="en_US.UTF-8"
LC_PAPER=el_GR.UTF-8
LC_NAME=el_GR.UTF-8
LC_ADDRESS=el_GR.UTF-8
LC_TELEPHONE=el_GR.UTF-8
LC_MEASUREMENT=el_GR.UTF-8
LC_IDENTIFICATION=el_GR.UTF-8
LC_ALL=

C
C.UTF-8
el_GR.utf8
en_AG
en_AG.utf8
en_AU.utf8
en_BW.utf8
en_CA.utf8
en_DK.utf8
en_GB.utf8
en_HK.utf8
en_IE.utf8
en_IN
en_IN.utf8
en_NG
en_NG.utf8
en_NZ.utf8
en_PH.utf8
en_SG.utf8
en_US.utf8
en_ZA.utf8
en_ZM
en_ZM.utf8
en_ZW.utf8
POSIX

Aquí hay un código de muestra que escribí que no funciona como quiero cajero automático.

void processFiles() {
    std::string filename = "17454-8.txt";
    std::ifstream inFile;
    inFile.open(filename);
    if (!inFile) {
        std::cerr << "Failed to open file" << std::endl;
        exit(1);
    }

    //calculate file size
    std::string s = "";
    s.reserve(filesize(filename) + std::ifstream::pos_type(1));
    std::string line;
    while( (inFile.good()) && std::getline(inFile, line) ) {
        s.append(line + "\n");
    }
    inFile.close();

    std::cout << s << std::endl;
    //remove punctuation, numbers, tolower,
    //TODO encoding detection and specific transformation (cannot catch Ö, Ä etc) will add too much complexity...
    std::setlocale(LC_ALL, "de_DE.iso88591");
    for (unsigned int i = 0; i < s.length(); ++i) {
        if (std::ispunct(s[i]) || std::isdigit(s[i]))
            s[i] = ' ';
        if (std::isupper(s[i]))
            s[i]=std::tolower(s[i]);
    }
    //std::cout << s << std::endl;
    //tokenize string
    std::istringstream iss(s);
    tokens.clear();
    tokens = {std::istream_iterator<std::string>{iss}, std::istream_iterator<std::string>{}};
    for (auto & i : tokens)
        std::cout << i << std::endl;

        //PROCESS TOKENS
    return;
}