Разбор EDGAR опиловок
Я хотел бы использовать python2.7, чтобы удалить все, что нет документов текст из заявок EDGAR (которые доступны онлайн в виде файлов .txt). Пример того, как файлы выглядят здесь:
EDGAR предоставляет определения типов документов, начиная со страницы 48 этого файла:
Первая часть моей программы получает файл .txt из онлайн-базы данных EDGAR в локальный файл, который ямы назвалиparseme.txt», Я хотел бы знать, как использовать DTD для разбора файла .txt. Я бы использовал для этого постоянный модуль синтаксического анализа, например BeautifulSoup, но EDGAR 'Формат s кажется уникальным, и я надеюсь избежать большого регулярного выражения для выполнения работы.
import os
filename = 'parseme.txt'
with open(filename) as f:
lines = f.readlines()
Мой вопрос связан с вопросом наРазбор SGML с открытыми произвольными тегами в Python 3 а такжеИспользуйте lxml для разбора текстового файла с плохим заголовком в Python но я считаю отличным, так как мой вопрос относится к python2.7, и я 'меня не касается заголовок - яЯ просто связан с текстом файла.