¿Cómo etiquetar automáticamente un grupo de palabras usando semántica?

Question

Jun 30, 2015, 11:11 PM

¿Cómo etiquetar automáticamente un grupo de palabras usando semántica?

El contexto es: ya tengo grupos de palabras (frases en realidad) que resultan de kmeans aplicados a consultas de búsqueda en Internet y que usan URL comunes en los resultados del motor de búsqueda como una distancia (coincidencia de URL en lugar de palabras si simplifico mucho) )

Me gustaría etiquetar automáticamente los grupos usando semántica, en otras palabras, me gustaría extraer el concepto principal que rodea a un grupo de frases consideradas juntas.

Por ejemplo, perdón por el tema de mi ejemplo, si tengo las siguientes preguntas: ['mi esposo me atacó', 'fue arrestado por la policía', 'el juicio aún continúa', 'mi esposo puede ¿ir a la cárcel por acosarme? ',' abogado libre '] Mi estudio trata sobre la violencia doméstica, pero claramente este grupo se centra en el aspecto legal del problema, por lo que la etiqueta podría ser "legal", por ejemplo.

Soy nuevo en NPL pero tengo que precisar que no quiero extraer palabras usando el etiquetado POS (o al menos este no es el resultado final esperado, pero tal vez sea un paso preliminar necesario).

Leí sobre Wordnet para la desambiguación de los sentidos y creo que podría ser una buena pista, pero no quiero calcular la similitud entre dos consultas (ya que los grupos son la entrada) ni obtener la definición de una palabra seleccionada gracias al contexto proporcionado por el conjunto de palabras (¿qué palabra seleccionar en este caso?). Quiero usar todo el conjunto de palabras para proporcionar un contexto (tal vez usando synsets o categorización con la estructura xml de la red de palabras) y luego resumir el contexto en una o pocas palabras.

Algunas ideas ? Puedo usar R o python, leí un poco sobre nltk pero no encuentro la manera de usarlo en mi contexto.