Разбор EDGAR опиловок

Question

Nov 22, 2012, 12:34 AM

Разбор EDGAR опиловок

Я хотел бы использовать python2.7, чтобы удалить все, что нет документов текст из заявок EDGAR (которые доступны онлайн в виде файлов .txt). Пример того, как файлы выглядят здесь:

пример

EDGAR предоставляет определения типов документов, начиная со страницы 48 этого файла:

DTD

Первая часть моей программы получает файл .txt из онлайн-базы данных EDGAR в локальный файл, который ямы назвалиparseme.txt», Я хотел бы знать, как использовать DTD для разбора файла .txt. Я бы использовал для этого постоянный модуль синтаксического анализа, например BeautifulSoup, но EDGAR 'Формат s кажется уникальным, и я надеюсь избежать большого регулярного выражения для выполнения работы.

import os
filename = 'parseme.txt'
with open(filename) as f:
    lines = f.readlines()

Мой вопрос связан с вопросом наРазбор SGML с открытыми произвольными тегами в Python 3 а такжеИспользуйте lxml для разбора текстового файла с плохим заголовком в Python но я считаю отличным, так как мой вопрос относится к python2.7, и я 'меня не касается заголовок - яЯ просто связан с текстом файла.

Разбор EDGAR опиловок

Ответы на вопрос(3)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Разбор EDGAR опиловок

Ответы на вопрос(3)

Ваш ответ на вопрос

Популярные вопросы