Resultados de la búsqueda a petición "text-mining"

1 la respuesta

Python Regex - Extrae texto entre (múltiples) expresiones en un archivo de texto

Soy un principiante de Python y estaría muy agradecido si pudiera ayudarme con mi problema de extracción de texto. Quiero extraer todo el texto, que se encuentra entre dos expresiones en un archivo de texto (el principio y el final de una ...

4 la respuesta

Python o Java para procesamiento de texto (minería de texto, recuperación de información, procesamiento de lenguaje natural) [cerrado]

Pronto comenzaré un nuevo proyecto en el que haré muchas tareas de procesamiento de texto, como búsqueda, categorización / clasificación, agrupamiento, et Habrá una gran cantidad de documentos que deben procesarse; probablemente millones de ...

2 la respuesta

¿Cómo acceder a Wikipedia desde R?

Existe algún paquete para R que permita consultar Wikipedia (muy probablemente utilizando la API de Mediawiki) para obtener una lista de artículos disponibles relevantes para dicha consulta, así como para importar artículos seleccionados para la ...

4 la respuesta

¿Cómo clasifico una palabra de un texto en cosas como nombres, números, dinero, fecha, etc.?

ace una semana hice algunas preguntas sobre la minería de texto, pero aún estaba un poco confundido, pero ahora sé lo que quiero hacer. La situación Tengo muchas páginas de descarga con contenido HTML. Algunos de ellos pueden ser un texto de un ...

8 la respuesta

Contar sílabas

Estoy buscando asignar algunos puntajes de legibilidad diferentes al texto en R, como el Flesh Kincaid. ¿Alguien sabe de una manera de segmentar palabras en sílabas usando R? No necesito necesariamente los segmentos de sílabas en sí, sino un ...

6 la respuesta

R Expresión regular Lookbehind

Tengo un vector lleno de cadenas del siguiente formato:<year1><year2><id1><id2> las primeras entradas del vector se ven así: 199719982001 199719982002 199719982003 199719982003 Para la primera entrada tenemos: año1 = 1997, año2 = 1998, id1 = ...

14 la respuesta

Encontrar frases de 2 y 3 palabras con el paquete R TM

Estoy tratando de encontrar un código que realmente funcione para encontrar las frases de dos y tres palabras más utilizadas en el paquete de minería de texto R (tal vez haya otro paquete que no conozco). He estado tratando de usar el tokenizer, ...

8 la respuesta

¿Qué kit de herramientas de PNL para usar en JAVA? [cerrado

Estoy trabajando en un proyecto que consiste en un sitio web que se conecta con el NCBI (Centro Nacional de Información Biotecnológica) y busca artículos allí. La cosa es que tengo que hacer un poco de minería de texto en todos los resultados. ...