PNL básica em CoffeeScript ou JavaScript - tokenização de Punkt, modelos simples de Bayes treinados - por onde começar? [fechadas

Meu projeto atual de aplicativo da web exige um pouco de PNL:

Tokenizing texto em frases, via Punkt e similares;Definição de frases mais longas por cláusula subordinada (geralmente em vírgulas, exceto quando não estiver)m modelo bayesiano adequado para parágrafos com uma sensação uniforme, sem órfãos ou viúvas e divisões estranhas mínimas (talve

... que muito disso é uma tarefa infantilmente fácil se você tem NLTK - o que eu faço, mais ou menos: o back-end do aplicativo é o Django no Tornado; você acha que fazer isso não seria um problema.

No entanto, tenho que fornecer interativamente o feedback do usuário para o qual os tokenizadores são necessários; portanto, preciso tokenizar os dados dos clientes.

Agora agora eu realmenteso usando NLTK, por meio de uma chamada da API REST para um processo Tornado que envolve a função NLTK e pouco mais. No momento, coisas como latência e simultaneidade são obviamente inferiores a este serviço ad-hoc, para colocá-lo educadamente. Acho que o que devo fazer é colocar as mãos nas versões Coffee / Java dessa função, se não reimplementá-l

E então, pelo que vi, o JavaScript não foi considerado legal por tempo suficiente para acumular a biblioteca de uso geral não específica da Web e de uso geral que se pode encontrar em C ou Python (ou mesmo Erlang) . É claro que o NLTK é um projeto de destaque por qualquer pessoa, mas eu preciso apenas de alguns por cento do que está embalando.

Mas agora estou numa encruzilhada - tenho que dobrar:

O plano de “aprender a técnica científica de JavaScript adequada para reimplementar algoritmos com os quais sou amigo do Facebook”, ou:O menos interessante, mas mais deterministicamente factível "se conforma com a tokenização por cabo, mas compensa pela escassez de velocidade e interesse pela programação - garanta um UX sem bola de praia, elevando uma chamada de função a um modelo de arquitetura de serviços em escala da Web com desempenho robusto, fazendo o Facebook parecer com o Google+ ".

Ou algo completamente diferente. O que devo fazer? Gostaria de começar as coisas. Esta é a minha pergunta. Estou aberto a soluções que envolvam uma abordagem atípica - desde que sua recomendação não seja desagradável (por exemplo, "use o Silverlight") e / ou um vórtice de tempo (por exemplo, "faça um doutorado em lingüística computacional, seu troglodita"), sou um jogo. Agradeço antecipadamente

questionAnswers(8)

yourAnswerToTheQuestion