¿Cómo clasifico una palabra de un texto en cosas como nombres, números, dinero, fecha, etc.?

ace una semana hice algunas preguntas sobre la minería de texto, pero aún estaba un poco confundido, pero ahora sé lo que quiero hacer.

La situación Tengo muchas páginas de descarga con contenido HTML. Algunos de ellos pueden ser un texto de un blog, por ejemplo. No están estructurados y provienen de diferentes sitios.

Lo que quiero hacer Dividiré todas las palabras con espacios en blanco y quiero clasificar cada una o un grupo de ellas en algunos ítems predefinidos como nombres, números, teléfono, correo electrónico, url, fecha, dinero, temperatura, etc.

Lo que yo sé Conozco los conceptos / los que escuché sobre Procesamiento del lenguaje natural, Reconfigurador de entidades con nombre, POSTagging, NayveBayesian, HMM, capacitación y muchas cosas para clasificar, etc., pero hay algunas bibliotecas de PNL diferentes con diferentes clasificadores y formas de hacerlo. esto y no sé qué uso o qué hacer.

LO QUE NECESITO Necesito algún ejemplo de código de un clasificador, PNL, lo que sea, que pueda clasificar cada palabra de un texto por separado, y no un texto completo. Algo como esto

//This is pseudo-code for what I want, and not a implementation

classifier.trainFromFile("file-with-train-words.txt");
words = text.split(" ");
for(String word: words){
    classifiedWord = classifier.classify(word);
    System.out.println(classifiedWord.getType());
}

¿Alguien puede ayudarme? Estoy confundido con varias API, clasificadores y algoritmos.

Respuestas a la pregunta(4)

Su respuesta a la pregunta