Resultados da pesquisa a pedido "tokenize"

12 a resposta

Pythonic maneira de implementar um tokenizer

Vou implementar um tokenizador em Python e fiquei pensando se você poderia oferecer algum conselho de estilo? Eu implementei um tokenizer antes em C e em Java, então estou bem com a teoria, gostaria de garantir que estou seguindo os estilos ...

1 a resposta

Arquivo de token C definido para flex?

Eu quero dividir um arquivo C em tokens, não para compilar, mas para analisar. Acho que isso deve ser bem direto e tentei procurar on-line por umtokens.lrquivo @ (ou algo semelhante) para flex com toda a gramática C já definida, mas não ...

3 a resposta

Como faço para tokenizar essa string no Ruby?

Eu tenho esta string: %{Children^10 Health "sanitation management"^5}E eu quero convertê-lo para tokenizar isso em uma matriz de hashes: [{:keywords=>"children", :boost=>10}, {:keywords=>"health", :boost=>nil}, {:keywords=>"sanitation ...

1 a resposta

Diferença entre StandardTokenizerFactory e KeywordTokenizerFactory no Solr?

Sou novo na Solr. Quero saber quando usar StandardTokenizerFactory e KeywordTokenizerFactory? Li os documentos no Apache Wiki, mas não estou conseguind Pode alguém explicar o diferença entre StandardTokenizerFactory e KeywordTokenizerFactory?

1 a resposta

Gerando um Tokenizer personalizado para a nova API TokenStream usando JFlex / Java CC

o momento, estamos usando o Lucene 2.3.2 e queremos migrar para o 3.4.0. Temos nosso próprio Tokenizer personalizado gerado usando o Java CC, que está em uso desde que começamos a usar o Lucene e queremos continuar com o mesmo comportamento. ...

1 a resposta

Boost :: tokenizer separado por vírgula (c ++)

Deve ser fácil para vocês ..... Estou brincando com tokenizadores usando o Boost e quero criar um token separado por vírgula. aqui está o meu código: string s = "this is, , , a test"; boost::char_delimiters_separator<char> sep(","); ...

5 a resposta

tokenizing e conversão para pig latin

Isso parece coisa de lição de casa, mas tenha certeza de que não é lição de casa. Apenas um exercício do livro que usamos em nosso curso de c ++, estou tentando ler adiante sobre indicadores .. O exercício do livro diz para eu dividir uma frase ...

8 a resposta

Erro de fala: java.util.regex.PatternSyntaxException, danificando o metacaractere '*'

Estou usandosplit() para tokenizar uma String separada por* seguindo este formato: name*lastName*ID*school*age % name*lastName*ID*school*age % name*lastName*ID*school*age Estou lendo isso de um arquivo chamado "entrada.al" usando este ...

6 a resposta

Tokenizing unicode usando nltk

Tenho arquivos de texto que usam a codificação utf-8 que contém caracteres como 'ö', 'ü' etc. etc. Gostaria de analisar o texto desses arquivos, mas não consigo que o tokenizador funcione corretamente. Se eu usar o tokenizer nltk padrão: f = ...

12 a resposta

O que é mais eficiente um caso de switch ou um std :: map

Estou pensando no tokenizer aqu ada token chama uma função diferente dentro do analisado O que é mais eficiente: Um mapa de std :: functions / boost :: functionsUma caixa de comutação