From 20666e8e4cbba2a11d1c3096033d1fb65860104d Mon Sep 17 00:00:00 2001 From: OneNewDev Date: Mon, 6 Jun 2022 17:29:22 +0200 Subject: [PATCH] change split and strip characters --- tagger.py | 4 ++-- 1 file changed, 2 insertions(+), 2 deletions(-) diff --git a/tagger.py b/tagger.py index cbe31f2..83e1ec8 100644 --- a/tagger.py +++ b/tagger.py @@ -44,7 +44,7 @@ class FileScanner(HTMLParser): words = [] for text in self.texte: # Textteile in einzelne Wörter aufteilen - words += re.split(r'[ \n\-_/]', text) + words += re.split(r'[ \n/]', text) # Die Anzahl, der Wörter in der aktuellen Datei, auf der Konsole ausgeben title = self.file.parent.name print(f'\nFile {title} contains {len(words)} words') @@ -52,7 +52,7 @@ class FileScanner(HTMLParser): title_words = set(title.split('-')) for word in words: # Verschiedene Zeichen vom Anfang und Ende der Wörter entfernen. - tag_name = word.strip(".,:;!\"'()«»") + tag_name = word.strip(".,:;!?\"'()«»") # Leere Wörter ignorieren if not tag_name: continue