Encontrar sub-oraciones significativas de una oración

¿Hay alguna manera de encontrar todas las sub-oraciones de una oración que todavía son significativas y contienen al menos un sujeto, un verbo y un predicado / objeto?

Por ejemplo, si tenemos una oración como "Voy a hacer un seminario sobre PNL en SXSW en Austin el próximo mes". Podemos extraer las siguientes oraciones significativas de esta oración: "Voy a hacer un seminario", "Voy a hacer un seminario sobre PNL", "Voy a hacer un seminario sobre PNL en SXSW", " Voy a hacer un seminario en SXSW "," Voy a hacer un seminario en Austin "," Voy a hacer un seminario sobre PNL el próximo mes ", etc.

Tenga en cuenta que no hay oraciones deducidas aquí (por ejemplo, "Habrá un seminario de PNL en SXSW el próximo mes". Aunque esto es cierto, no necesitamos esto como parte de este problema). Todas las oraciones generadas son estrictamente parte de la oración dada.

¿Cómo podemos abordar la solución de este problema? Estaba pensando en crear datos de entrenamiento anotados que tengan un conjunto de sub-oraciones legales para cada oración en el conjunto de datos de entrenamiento. Y luego escriba algunos algoritmos de aprendizaje supervisado para generar un modelo.

Soy bastante nuevo en PNL y Machine Learning, por lo que sería genial si pudieran sugerir algunas formas de resolver este problema.

Respuestas a la pregunta(8)

Su respuesta a la pregunta