@ user757256: да, Jython немного медленнее и требует больше памяти. Взломайте какой-нибудь прототип, сравните с CPython и Jython, а затем посмотрите, что вы можете оптимизировать. И снова сделайте свой выбор только после оценки, какие библиотеки вы можете использовать.
ро начну новый проект, в котором собираюсь выполнять множество задач по обработке текста, таких как поиск, категоризация / классификация, кластеризация и так далее.
Там будет огромное количество документов, которые должны быть обработаны; вероятно, миллионы документов. После первоначальной обработки он также должен иметь возможность ежедневно обновляться несколькими новыми документами.
Могу ли я использовать Python для этого или Python слишком медленный? Это лучше всего использовать Java?
Если возможно, я бы предпочел Python, так как это то, что я использовал в последнее время. Кроме того, я бы закончил часть кода гораздо быстрее. Но все зависит от скорости Python. Я использовал Python для некоторых мелкомасштабных задач обработки текста только с несколькими тысячами документов, но я не уверен, насколько хорошо он масштабируется.