Как извлечь информацию о корпоративных облигациях с помощью машинного обучения

Я работаю над проектом, в котором мне нужно извлечь информацию о корпоративных облигациях из неструктурированных электронных писем. Проведя много исследований, я обнаружил, что машинное обучение может быть использовано для извлечения информации. Я пробовал Opennlp NER (распознаватель именованных сущностей), но я не уверен, выбрал ли я правильную библиотеку для этой проблемы или нет, потому что я получаю результаты, но не на должном уровне.

Может кто-нибудь предложить мне какую-нибудь библиотеку или алгоритмы, означает, как я могу анализировать и извлекать данные из нее. Я планирую изучить наивный байесовский или N-граммовый или векторный метод поддержки, но не уверен, поможет мне это или нет. Пожалуйста, предложите.

Примеры как:

[/] Trading 10mm ABC 2.5 19 05/06 mkt can use 50mm ---> здесь я хочу извлечь"ABC 2.5 19"

Пример 2:

XYZ 6.5 15 10-2B 106-107 B3 AAA- 1.646MM 2x2 ---> здесь я хочу извлечь"XYZ 6.5 15"

Ответы на вопрос(1)

Ваш ответ на вопрос