@Eser Aygün: лол, нет, это меня не пугает. Я не настолько стар, чтобы программировать, поэтому я не так много знаю об этом. Вот почему я так много спрашиваю, чтобы быть уверенным, что я ничего не понимаю. ;) О, один маленький вопрос: есть большая разница в Stringbuilder и Stringbuffer? Я использовал Stringbuffer, и он работает, но вы и WhiteFang используете другой, поэтому мне интересно, плохо ли мне использовать Stringbuffer, потому что позже я буду использовать большие строки.
умываю о том, чтобы добавить в мою программу-подобие стоп-слова, а затем и стеммер (выбор портера 1 или 2 зависит от того, что проще всего реализовать)
Мне было интересно, так как я читаю свой текст из файлов как целые строки и сохраняю их как длинную строку, так что если я получу две строки ex.
String one = "I decided buy something from the shop.";
String two = "Nevertheless I decidedly bought something from a shop.";
Теперь, когда я получил эти строки
Stemming: Могу ли я просто использовать алгоритмы Stemermer непосредственно на нем, сохранить его как String, а затем продолжить работу над сходством, как я делал до реализации Steammer в программе, например, запустив one.stem (); Такие вещи?
Стоп-слово: Как это работает? О. Я просто использую; one.replaceall («Я», «»); или есть какой-то конкретный способ использовать для этого процесса? Я хочу продолжать работать со строкой и получить строку, прежде чем использовать алгоритмы подобия для нее, чтобы получить сходство. Вики мало что говорит.
Надеюсь, вы можете помочь мне! Благодарю.
Изменить: Это для школьного проекта, где я пишу статью о сходстве между различными алгоритмами, поэтому я не думаю, что мне разрешено использовать lucene или другие библиотеки, которые работают для меня. Кроме того, я хотел бы попытаться понять, как это работает, прежде чем я начну использовать библиотеки, такие как Lucene и co. Надеюсь, это не слишком беспокоит ^^