Извлечение выделенных слов из документа Word (.docx) в Python

Question

Mar 05, 2012, 07:48 AM

Извлечение выделенных слов из документа Word (.docx) в Python

Я работаю с кучей документов Word, в которых у меня есть текст (слова), которые выделены (с использованием цветовых кодов, например, желтый, синий, серый), теперь я хочу извлечь выделенные слова, связанные с каждым цветом. Я программирую на Python. Вот что я сделал в настоящее время:

открыл слово документ с[python-docx][1] а затем добраться до<w:r> тег, который содержит токены (слова) в документе. Я использовал следующий код:

#!/usr/bin/env python2.6
# -*- coding: ascii -*-
from docx import *
document = opendocx('test.docx')
words = document.xpath('//w:r', namespaces=document.nsmap)
for word in words:
  print word

Теперь я застрял в той части, где я проверяю каждое слово, если оно имеет<w:highlight> отметьте и извлеките из него цветной код, и если он совпадает с желтым печатным текстом внутри<w:t> тег. Я буду очень признателен, если кто-то может указать мне на извлечение слова из проанализированного файла.

Извлечение выделенных слов из документа Word (.docx) в Python

Ответы на вопрос(1)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Извлечение выделенных слов из документа Word (.docx) в Python

Ответы на вопрос(1)

Ваш ответ на вопрос

Популярные вопросы