Базовый НЛП в CoffeeScript или JavaScript - Punkt tokenizaton, простые обученные модели Байеса - с чего начать? [закрыто]

Мой текущий проект веб-приложения требует немного НЛП:

Токенизация текста в предложения через Punkt и т. П .;Разбивка более длинных предложений по подчиненному предложению (часто это запятые, кроме случаев, когда это не так)Байесовская модель, подходящая для чанкованных абзацев с равномерным чувством, без сирот или вдов и минимального неудобного разделения (возможно)

... что многое из этого по-детски легкое задание, если у вас естьNLTK - что я делаю, вроде: бэкэнд приложения - Django на Tornado; вы думаете, что делать эти вещи было бы не проблема.

Тем не менее, я должен в интерактивном режиме предоставлять обратную связь с пользователем, для которой необходимы токенизаторы, поэтому мне нужно сделать токенизацию данных на стороне клиента.

Прямо сейчас я на самом делея используя NLTK, через вызов API REST для процесса Tornado, который оборачивает функцию NLTK и немного другое. На данный момент такие вещи, как латентность и параллелизм, явно неоптимальны в этом специальном сервисе, если говорить вежливо. Я думаю, что мне следует получить в руки эту версию для Coffee / Java, если не саму ее реализацию.

И, тем не менее, из того, что я видел, JavaScript не считался достаточно крутым, чтобы накапливать не просто веб-ориентированную универсальную библиотеку schmorgasbörd, которую можно найти в C или Python (или даже Erlang). Конечно, NLTK - это выдающийся проект, но мне нужно всего лишь несколько процентов от того, что он упаковывает.

Но теперь я нахожусь на распутье - я должен удвоить либо:

План «Изучить научную технику JavaScript, пригодный для переопределения алгоритмов, с которыми я в лучшем случае дружу с Facebook», или:Менее интересные, но более детерминистически выполнимые «соглашаются на токенизацию по проводам, но чрезмерно компенсируют недостаток скорости и интересности программирования - обеспечивают UX без пляжного мяча, превращая вызов функции в надежно работающий образец архитектуры сервисов веб-масштаба, делая Facebook выглядит как Google+ ».

Или что-то еще полностью. Что я должен делать? Как начать все с начала. Это мой вопрос. Я открыт для решений, использующих нетипичный подход - до тех пор, пока ваша рекомендация не является неприятной (например, «используйте Silverlight») и / или временной вихрь (например, «получите докторскую степень в области компьютерной лингвистики, которую вы троглодите»), я игра. Заранее спасибо.

Ответы на вопрос(4)

Ваш ответ на вопрос