вычисление частоты слов в нескольких файлах [дубликаты]
На этот вопрос уже есть ответ здесь:
Как найти частоту ключей в словаре для нескольких текстовых файлов? 1 ответЯ пишу код, чтобы подсчитать частоту встречаемости слов в документе, содержащем около 20000 файлов, я могу получить общую частоту слов в документе, и мой код на данный момент:
import os
import re
import sys
sys.stdout=open('f2.txt','w')
from collections import Counter
from glob import iglob
def removegarbage(text):
text=re.sub(r'\W+',' ',text)
text=text.lower()
return text
folderpath='d:/articles-words'
counter=Counter()
for filepath in iglob(os.path.join(folderpath,'*.txt')):
with open(filepath,'r') as filehandle:
counter.update(removegarbage(filehandle.read()).split())
for word,count in counter.most_common():
print('{} {}'.format(word,count))
Но я хочу изменить свой счетчик и обновить его только один раз для каждого файла, то есть количество должно соответствовать 0 или 1 для его вхождения или отсутствия в файле в документе. Например: слово "немного", встречается 3 раза в файле1 и 8 раз в файле 45, поэтому значение счетчика должно быть 2, а не 11, но мой текущий код показывает 11.