Токенизируйте, удаляйте стоп-слова, используя Lucene с Java

Question

Jul 12, 2013, 11:17 PM

Токенизируйте, удаляйте стоп-слова, используя Lucene с Java

Я пытаюсь токенизировать и удалить стоп-слова из текстового файла с Lucene. У меня есть это:

public String removeStopWords(String string) throws IOException {

Set stopWords = new HashSet();
    stopWords.add("a");
    stopWords.add("an");
    stopWords.add("I");
    stopWords.add("the");

    TokenStream tokenStream = new StandardTokenizer(Version.LUCENE_43, new StringReader(string));
    tokenStream = new StopFilter(Version.LUCENE_43, tokenStream, stopWords);

    StringBuilder sb = new StringBuilder();

    CharTermAttribute token = tokenStream.getAttribute(CharTermAttribute.class);
    while (tokenStream.incrementToken()) {
        if (sb.length() > 0) {
            sb.append(" ");
        }
        sb.append(token.toString());
    System.out.println(sb);    
    }
    return sb.toString();
}}

Моя главная выглядит так:

    String file = "..../datatest.txt";

    TestFileReader fr = new TestFileReader();
    fr.imports(file);
    System.out.println(fr.content);

    String text = fr.content;

    Stopwords stopwords = new Stopwords();
    stopwords.removeStopWords(text);
    System.out.println(stopwords.removeStopWords(text));

Это дает мне ошибку, но я могуне понимаю, почему.

Токенизируйте, удаляйте стоп-слова, используя Lucene с Java

Ответы на вопрос(2)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Токенизируйте, удаляйте стоп-слова, используя Lucene с Java

Ответы на вопрос(2)

Ваш ответ на вопрос

Популярные вопросы