Как работает токенизация и сопоставление с образцом на китайском?

Этот вопрос включает в себя вычисления, а также знание китайского языка. У меня есть запросы на китайском языке, и у меня есть отдельный список фраз на китайском языке, мне нужно, чтобы найти, какой из этих запросов содержит какую-либо из этих фраз.

На английском языке это очень простая задача. Я вообще не понимаю китайский язык, его семантику, правила грамматики и т. Д., И если кто-то на этом форуме, кто также понимает китайский, может помочь мне с некоторыми базовыми знаниями и тем, как выполняется сопоставление с образцом для китайского языка.

У меня есть общее представление о том, что на китайском языке одна единица (без пробела между ними) может фактически означать более одного слова (это правильно?). Так есть ли какие-либо правила о том, как несколько слов объединяются между собой, чтобы выделиться как единое целое? Это сбивает с толку, потому что в китайской письменности есть пробелы, но даже у единицы без пробела есть более одного слова.

Любые ссылки, которые объясняют китайский с вычислительной точки зрения, сопоставление с образцом и т. Д. Были бы очень полезны.

Ответы на вопрос(2)

Ваш ответ на вопрос