So indizieren Sie Word 2003-, 2007- und 2010-Dokumente mit Lucene.NET

Ich schreibe einen benutzerdefinierten Lucene.NET-Indexer, um die Indizierung von MS Word-Dokumenten zu ermöglichen. Der Indexer muss in der Lage sein, die letzten drei Versionen von MS Word zu verarbeiten: 2010, 2007 und 2003.

Es ist geplant, VSTO-Interop-Assemblys zu verwenden, die im Rahmen von VS2010 installiert werden, um Textinhalte aus den Dokumenten zu extrahieren.

Gibt es eine bessere Möglichkeit, die Indexierung von Word-Dokumenten zu implementieren? Bedeutet dies, dass ich alle drei Versionen von Word auf dem Server installieren muss? Oder nur Word 2010?

Tools / Umgebung:

Lucene.NET 2.3.1.3 VS2010 / .NET 3.5Windows 2008 / IIS 7

Hinweis Einzelheiten zur Implementierung finden Sie unterSitecore Textsuche in PDF- oder Word-Dokumenten

Antworten auf die Frage(2)

Ihre Antwort auf die Frage