Идеи для проекта обработки естественного языка? [закрыто]

Я должен сделать окончательный проект для моего класса компьютерной лингвистики. Мы'Я использовал OCaml все время, но у меня также есть знакомство с Java. Мы'мы изучали морфологию, автоматы, собирали деревья синтаксического анализа, синтаксический анализ CYK, попытки, выпадающие автоматы, регулярные выражения, теорию формального языка, некоторую семантику и т. д.

Вот несколько идей, которые ямы придумали. У вас есть что-нибудь, что вы думаете, будет круто?

Скрипт, который сканирует потоки Facebook на наличие неприятных * комментариев и молча скрывает их с помощью JS (это будет запускаться пользователем 'согласие, очевидно)

Анализ фрагмента письма с использованием семантики, синтаксиса, использования знаков препинания и других метрик, чтобы попытаться "отпечатков пальцев» Автор. Его можно использовать для определения того, написаны ли две работы одним и тем же автором. Или кто-то может написатьсо временем, и почувствовать, как изменился его стиль.

Чат-бот (менее интересный / оригинальный)

Мне может быть разрешено использовать уже существующие библиотеки для этого. Существуют ли для OCaml? Без библиотеки / инструментария вышеупомянутые три идеи, вероятно, неосуществимы, если я не ограничу их очень специфической областью.

Идеи нижнего уровня:

Операции на конечных автоматах - минимизация, составление преобразователей, доказательство того, что FSM находится в минимально возможном состоянии. Я очень интересуюсь теорией графов, поэтому любое совпадение с FSM может быть хорошим местом для изучения. (Что еще я могу сделать с автоматами?)

Что-то крутое с регулярным выражением?

Что-нибудь крутое с CYK?

У кого-нибудь еще есть интересные идеи?

* противный, определенный как имеющий определенные образцы, типичные для младших школьников. Неопределенность этого термина не проблема; для кредита я мог определить все, что я хочу и предназначаться для этого.

Ответы на вопрос(9)

Ваш ответ на вопрос