Потрясающе! Ответы на мои вопросы, а затем некоторые!

ентация и примеры SpaCy показывают, что класс PhraseMatcher полезен для сопоставления последовательностей токенов в документах. Нужно предоставить словарь последовательностей, которые будут сопоставлены.

В моем приложении у меня есть документы, которые представляют собой наборы токенов и фраз. Существуют сущности разных типов. Данные на удаленном естественном языке (документы представляют собой набор ключевых слов с полуслучайным порядком). Я пытаюсь найти совпадения нескольких типов.

Например:

yellow boots for kids

Как найти совпадения по цветам (например, желтому), типам продуктов (например, сапогам) и по возрасту (например, детям) с помощью PhraseMatches SpaCy? Это хороший вариант использования? Если разные объекты совпадают (например, цвет совпадает в списке цветов и в списке материалов), возможно ли создать все уникальные случаи?

Я действительно не могу использовать метку последовательности, так как данные слабо структурированы и изобилуют неясностями. У меня есть список объектов (например, цвета, цвета, типы продуктов) и списки связанных значений.

Одной из идей будет создание нескольких объектов PhraseMatcher, по одному для каждой сущности, выполнение сопоставлений отдельно, а затем объединение результатов. Каждый тип сущности получит свой собственный словарь. Это звучит просто, но может быть неэффективно, особенно в части слияния. Списки значений довольно велики. Прежде чем идти по этому пути, я хотел бы знать, если это хорошая идея или, возможно, есть более простые способы сделать это с SpaCy.

Ответы на вопрос(1)

Ваш ответ на вопрос