Cómo indexar documentos de Word 2003, 2007 y 2010 usando Lucene.NET

Estoy escribiendo un indexador Lucene.NET personalizado para habilitar la indexación de documentos de MS Word. El indexador debe ser capaz de manejar las últimas tres versiones de MS Word: 2010, 2007 y 2003.

El plan es usar ensamblados de interoperabilidad VSTO que se instalen como parte de VS2010 para extraer contenido de texto de los documentos.

¿Hay una mejor manera de implementar la indexación de documentos de Word? ¿Significa esto que tendré que instalar las tres versiones de Word en el servidor? ¿O solo Word 2010?

Herramientas / Medio ambiente:

Lucene.NET 2.3.1.3VS2010 / .NET 3.5Windows 2008 / IIS 7

Nota: Para obtener detalles sobre cómo implementar esto, veaBúsqueda de texto de Sitecore en documentos PDF o Word

Respuestas a la pregunta(1)

Su respuesta a la pregunta