Como indexar documentos do Word 2003, 2007 e 2010 usando o Lucene.NET

Estou escrevendo um indexador Lucene.NET personalizado para habilitar a indexação de documentos do MS Word. O indexador deve ser capaz de lidar com os três últimos lançamentos do MS Word: 2010, 2007 e 2003.

O plano é usar os assemblies de interoperabilidade do VSTO instalados como parte do VS2010 para extrair o conteúdo de texto dos documentos.

Existe uma maneira melhor de implementar a indexação de documentos do Word? Isso significa que terei que instalar as três versões do Word no servidor? Ou apenas o Word 2010?

Ferramentas / Ambiente:

Lucene.NET 2.3.1.3VS2010 / .NET 3.5Windows 2008 / IIS 7

Nota: Para detalhes sobre como implementar isso, consultePesquisa de texto em sitecore em documentos PDF ou Word

questionAnswers(1)

yourAnswerToTheQuestion