Resultados da pesquisa a pedido "unicode"
Tokenizing unicode usando nltk
Tenho arquivos de texto que usam a codificação utf-8 que contém caracteres como 'ö', 'ü' etc. etc. Gostaria de analisar o texto desses arquivos, mas não consigo que o tokenizador funcione corretamente. Se eu usar o tokenizer nltk padrão: f = ...
UnicodeDecodeError: o codec 'charmap' não pode decodificar o byte X na posição Y: mapas de caracteres para <não definido>
Estou tentando obter um programa Python 3 para fazer algumas manipulações com um arquivo de texto preenchido com informações. No entanto, ao tentar ler o arquivo, recebo o seguinte erro: Traceback (última chamada mais recente): Arquivo "SCRIPT ...
wcslen () funciona de maneira diferente no Xcode e no VC ++
Eu achei aquilowcslen() no VC ++ 2010 retorna a contagem correta de letras; enquanto isso, o Xcode não. Por exemplo, o código abaixo retorna 11 corretos no VC ++ 2010, mas retorna 17 incorretos no Xcode 4. const wchar_t *p = L"123abc가1나1다"; ...
solr tomcat utf-8
Tenho uma configuração de solução com o tomcat e importo dados com o jdbc de uma base de dados, mas quando uso caracteres não unicode após a importação dos dados, ao enviar a consulta, ela não reconhece a consulta no resultado
Python String Cleanup + Manipulation (caracteres acentuados)
Eu tenho um banco de dados cheio de nomes como: John Smith Scott J. Holmes Dr. Kaplan Ray's Dog Levi's Adrian O'Brien Perry Sean Smyre Carie Burchfield-Thompson Björn Árnason Existem alguns nomes estrangeiros com sotaques que precisam ser ...
omo definir a codificação padrão do PHP para utf-
No "PHP Cookbook", eles dizem (p.589) que, para definir corretamente a codificação de caracteres dos dados enviados como utf-8, é necessário editar odefault_encoding configuração para utf-8. No entanto, não consigo encontrar essa configuração ...
Perl: imprimindo strings Unicode no console do Windows
Estou com um problema estranho ao imprimir seqüências de caracteres Unicode no console do Windows *. Considere este texto: אני רוצה לישון Intermediary היא רוצה לישון אתם, הם Bye Hello, world! test Suponha que ele esteja em um arquivo chamado ...
Como determinar se um caractere é uma letra em Jav
Como você verifica se uma string de um caractere é uma letra - incluindo letras com acento Eu tive que resolver isso recentemente, então eu mesmo responderei, depois que a recente pergunta do VB6 me lembro
MySQL Problemas de codificação de texto em C #
Eu tenho um banco de dados MySQL antigo com codificação definida como UTF-8. Estou usando a estrutura de entidades do Ado.Net para conectar-se a el A string que eu recupero possui caracteres estranhos quando caracteres esperados são ...
Delphi XE2 Tipo de campo TStringField não suporta Unicode?
Eu estive examinando a classe TDataset e seus campos de string, no Delphi XE2, e notei que AsWideString retorna um tipo de UnicodeString. No entanto, ele obtém o valor da função TField.AsString: String, que por sua vez chama TFIeld.AsAnsiString: ...