fix link scoring

2022-06-08 19:00:49 +02:00 · 2022-06-08 19:00:49 +02:00 · cf76cbca55
commit cf76cbca55
parent 73708fffd8
1 changed files with 2 additions and 2 deletions
--- a/tagger.py
+++ b/tagger.py
@ -93,14 +93,14 @@ class FileScanner(HTMLParser):
            # Eventuelle URL-codierte Zeichen in die eigentlichen Zeichen umwandeln. (z.B. %2F -> /)
            link = unquote_plus(link)
            # Link-Teile in einzelne Wörter aufteilen
-            words += re.split(r'[/\-_#.?&=]', link)
+            link_words += re.split(r'[/\-_#.?&=]', link)
        for link_word in link_words:
            # Alle Buchstaben verkleinern
            link_word = link_word.lower()
            # Wenn ein Wort aus dem Text auch in einem Link vorkommt, wird die Bewertung erhöht.
            # Somit kann verhindert werden, dass Link-Bestandteile als Tags vorgeschlagen werden (z.B. E7xcsFpR).
            if link_word in words_with_usage:
-                words_with_usage[link_word] += 10
+                words_with_usage[link_word].score += 10
        
        # Die Wörter nach ihrer Bewertung sortieren
        return sorted(words_with_usage.values(), key=lambda tag: tag.score, reverse=True)