@ user757256: да, Jython немного медленнее и требует больше памяти. Взломайте какой-нибудь прототип, сравните с CPython и Jython, а затем посмотрите, что вы можете оптимизировать. И снова сделайте свой выбор только после оценки, какие библиотеки вы можете использовать.

ро начну новый проект, в котором собираюсь выполнять множество задач по обработке текста, таких как поиск, категоризация / классификация, кластеризация и так далее.

Там будет огромное количество документов, которые должны быть обработаны; вероятно, миллионы документов. После первоначальной обработки он также должен иметь возможность ежедневно обновляться несколькими новыми документами.

Могу ли я использовать Python для этого или Python слишком медленный? Это лучше всего использовать Java?

Если возможно, я бы предпочел Python, так как это то, что я использовал в последнее время. Кроме того, я бы закончил часть кода гораздо быстрее. Но все зависит от скорости Python. Я использовал Python для некоторых мелкомасштабных задач обработки текста только с несколькими тысячами документов, но я не уверен, насколько хорошо он масштабируется.

Ответы на вопрос(4)

Ваш ответ на вопрос