Разбор EDGAR опиловок

Я хотел бы использовать python2.7, чтобы удалить все, что нет документов текст из заявок EDGAR (которые доступны онлайн в виде файлов .txt). Пример того, как файлы выглядят здесь:

пример

EDGAR предоставляет определения типов документов, начиная со страницы 48 этого файла:

DTD

Первая часть моей программы получает файл .txt из онлайн-базы данных EDGAR в локальный файл, который ямы назвалиparseme.txt», Я хотел бы знать, как использовать DTD для разбора файла .txt. Я бы использовал для этого постоянный модуль синтаксического анализа, например BeautifulSoup, но EDGAR 'Формат s кажется уникальным, и я надеюсь избежать большого регулярного выражения для выполнения работы.

import os
filename = 'parseme.txt'
with open(filename) as f:
    lines = f.readlines()

Мой вопрос связан с вопросом наРазбор SGML с открытыми произвольными тегами в Python 3 а такжеИспользуйте lxml для разбора текстового файла с плохим заголовком в Python но я считаю отличным, так как мой вопрос относится к python2.7, и я 'меня не касается заголовок - яЯ просто связан с текстом файла.

Ответы на вопрос(3)

Ваш ответ на вопрос