Jak utworzyć niestandardowy model przy użyciu OpenNLP?

próbujewyodrębnić podmioty lubićNazwy, umiejętności z dokumentu za pomocąOpenNLP Java API. alenie wyodrębnia poprawnych nazw. Używam modelu dostępnego nalink opennlp sourceforge

Oto fragment kodu java -

public class tikaOpenIntro {

  public static void main(String[] args) throws IOException, SAXException,
      TikaException {

    tikaOpenIntro toi = new tikaOpenIntro();
    toi.filest("");
    String cnt = toi.contentEx();
    toi.sentenceD(cnt);
    toi.tokenization(cnt);

    String names = toi.namefind(toi.Tokens);
    toi.files(names);

  }

  public String Tokens[];

  public String contentEx() throws IOException, SAXException, TikaException {
    InputStream is = new BufferedInputStream(new FileInputStream(new File(
        "/home/rahul/Downloads/rahul.pdf")));
    // URL url=new URL("http://in.linkedin.com/in/rahulkulhari");
    // InputStream is=url.openStream();
    Parser ps = new AutoDetectParser(); // for detect parser related to

    BodyContentHandler bch = new BodyContentHandler();

    ps.parse(is, bch, new Metadata(), new ParseContext());

    return bch.toString();

  }

  public void files(String st) throws IOException {
    FileWriter fw = new FileWriter("/home/rahul/Documents/extrdata.txt",
        true);
    BufferedWriter bufferWritter = new BufferedWriter(fw);
    bufferWritter.write(st + "\n");
    bufferWritter.close();
  }

  public void filest(String st) throws IOException {
    FileWriter fw = new FileWriter("/home/rahul/Documents/extrdata.txt",
        false);

    BufferedWriter bufferWritter = new BufferedWriter(fw);
    bufferWritter.write(st);
    bufferWritter.close();
  }

  public String namefind(String cnt[]) {
    InputStream is;
    TokenNameFinderModel tnf;
    NameFinderME nf;
    String sd = "";
    try {
      is = new FileInputStream(
          "/home/rahul/opennlp/model/en-ner-person.bin");
      tnf = new TokenNameFinderModel(is);
      nf = new NameFinderME(tnf);

      Span sp[] = nf.find(cnt);

      String a[] = Span.spansToStrings(sp, cnt);
      StringBuilder fd = new StringBuilder();
      int l = a.length;

      for (int j = 0; j < l; j++) {
        fd = fd.append(a[j] + "\n");

      }
      sd = fd.toString();

    } catch (FileNotFoundException e) {

      e.printStackTrace();
    } catch (InvalidFormatException e) {

      e.printStackTrace();
    } catch (IOException e) {

      e.printStackTrace();
    }
    return sd;
  }


  public void sentenceD(String content) {
    String cnt[] = null;
    InputStream om;
    SentenceModel sm;
    SentenceDetectorME sdm;
    try {
      om = new FileInputStream("/home/rahul/opennlp/model/en-sent.bin");
      sm = new SentenceModel(om);
      sdm = new SentenceDetectorME(sm);
      cnt = sdm.sentDetect(content);

    } catch (IOException e) {
      e.printStackTrace();
    }

  }

  public void tokenization(String tokens) {

    InputStream is;
    TokenizerModel tm;

    try {
      is = new FileInputStream("/home/rahul/opennlp/model/en-token.bin");
      tm = new TokenizerModel(is);
      Tokenizer tz = new TokenizerME(tm);
      Tokens = tz.tokenize(tokens);
      // System.out.println(Tokens[1]);
    } catch (IOException e) {
      e.printStackTrace();
    }
  }

}

co próbuję zrobić to:

ja używamApache Tika do konwersji dokumentu PDF na zwykły dokument tekstowy.Przekazuję dokument w formacie zwykłego tekstuwykrywanie granic zdań.Po tymtokenizacjapo tymWyodrębnienie jednostki nazwy

Ale wyodrębnia nazwy i inne słowa.Nie wyodrębnia nazw własnych. ijak stworzyć własny model, aby wyodrębnić umiejętności z dokumentu, takie jak pływanie, programowanie itp.?

Daj mi jakiś pomysł!

Każda pomoc zostanie bardzo doceniona !?

questionAnswers(4)

yourAnswerToTheQuestion