не будет соответствовать, потому что у него есть дополнительная буква в конце.

ий наэто В этом случае я хотел бы подсчитать количество вхождений нескольких слов и чисел, которые встречаются в векторе предложений, с помощью str_count пакета stringr.

Но я заметил, что подсчитываются не только целые числа, но и частичные числа. Например:

df <- c("honda civic 1988 with new lights","toyota auris 4x4 140000 km","nissan skyline 2.0 159000 km")
keywords <- c("honda","civic","toyota","auris","nissan","skyline","1988","1400","159")
library(stringr)
number_of_keywords_df <- str_count(df, paste(keywords, collapse='|'))

Здесь я получаю вектор для number_of_keywords_df из 3, 3, 3, в то время как ясно, что он должен быть 3, 2, 2. Кажется, что функция str_count подсчитывает частичные строки "1400" и "159" в числах "140000" и "159000 ». Есть ли способ предотвратить это?

Ответы на вопрос(2)

Ваш ответ на вопрос