From cf76cbca55bb56053e31b1c1bf7962200e5857b5 Mon Sep 17 00:00:00 2001 From: OneNewDev Date: Wed, 8 Jun 2022 19:00:49 +0200 Subject: [PATCH] fix link scoring --- tagger.py | 4 ++-- 1 file changed, 2 insertions(+), 2 deletions(-) diff --git a/tagger.py b/tagger.py index 6ce69c4..3934526 100644 --- a/tagger.py +++ b/tagger.py @@ -93,14 +93,14 @@ class FileScanner(HTMLParser): # Eventuelle URL-codierte Zeichen in die eigentlichen Zeichen umwandeln. (z.B. %2F -> /) link = unquote_plus(link) # Link-Teile in einzelne Wörter aufteilen - words += re.split(r'[/\-_#.?&=]', link) + link_words += re.split(r'[/\-_#.?&=]', link) for link_word in link_words: # Alle Buchstaben verkleinern link_word = link_word.lower() # Wenn ein Wort aus dem Text auch in einem Link vorkommt, wird die Bewertung erhöht. # Somit kann verhindert werden, dass Link-Bestandteile als Tags vorgeschlagen werden (z.B. E7xcsFpR). if link_word in words_with_usage: - words_with_usage[link_word] += 10 + words_with_usage[link_word].score += 10 # Die Wörter nach ihrer Bewertung sortieren return sorted(words_with_usage.values(), key=lambda tag: tag.score, reverse=True)