Resultados da pesquisa a pedido "tokenize"
Pythonic maneira de implementar um tokenizer
Vou implementar um tokenizador em Python e fiquei pensando se você poderia oferecer algum conselho de estilo? Eu implementei um tokenizer antes em C e em Java, então estou bem com a teoria, gostaria de garantir que estou seguindo os estilos ...
Arquivo de token C definido para flex?
Eu quero dividir um arquivo C em tokens, não para compilar, mas para analisar. Acho que isso deve ser bem direto e tentei procurar on-line por umtokens.lrquivo @ (ou algo semelhante) para flex com toda a gramática C já definida, mas não ...
Como faço para tokenizar essa string no Ruby?
Eu tenho esta string: %{Children^10 Health "sanitation management"^5}E eu quero convertê-lo para tokenizar isso em uma matriz de hashes: [{:keywords=>"children", :boost=>10}, {:keywords=>"health", :boost=>nil}, {:keywords=>"sanitation ...
Diferença entre StandardTokenizerFactory e KeywordTokenizerFactory no Solr?
Sou novo na Solr. Quero saber quando usar StandardTokenizerFactory e KeywordTokenizerFactory? Li os documentos no Apache Wiki, mas não estou conseguind Pode alguém explicar o diferença entre StandardTokenizerFactory e KeywordTokenizerFactory?
Gerando um Tokenizer personalizado para a nova API TokenStream usando JFlex / Java CC
o momento, estamos usando o Lucene 2.3.2 e queremos migrar para o 3.4.0. Temos nosso próprio Tokenizer personalizado gerado usando o Java CC, que está em uso desde que começamos a usar o Lucene e queremos continuar com o mesmo comportamento. ...
Boost :: tokenizer separado por vírgula (c ++)
Deve ser fácil para vocês ..... Estou brincando com tokenizadores usando o Boost e quero criar um token separado por vírgula. aqui está o meu código: string s = "this is, , , a test"; boost::char_delimiters_separator<char> sep(","); ...
tokenizing e conversão para pig latin
Isso parece coisa de lição de casa, mas tenha certeza de que não é lição de casa. Apenas um exercício do livro que usamos em nosso curso de c ++, estou tentando ler adiante sobre indicadores .. O exercício do livro diz para eu dividir uma frase ...
Erro de fala: java.util.regex.PatternSyntaxException, danificando o metacaractere '*'
Estou usandosplit() para tokenizar uma String separada por* seguindo este formato: name*lastName*ID*school*age % name*lastName*ID*school*age % name*lastName*ID*school*age Estou lendo isso de um arquivo chamado "entrada.al" usando este ...
Tokenizing unicode usando nltk
Tenho arquivos de texto que usam a codificação utf-8 que contém caracteres como 'ö', 'ü' etc. etc. Gostaria de analisar o texto desses arquivos, mas não consigo que o tokenizador funcione corretamente. Se eu usar o tokenizer nltk padrão: f = ...
O que é mais eficiente um caso de switch ou um std :: map
Estou pensando no tokenizer aqu ada token chama uma função diferente dentro do analisado O que é mais eficiente: Um mapa de std :: functions / boost :: functionsUma caixa de comutação