diff --git a/tagger.py b/tagger.py index 6ce69c4..3934526 100644 --- a/tagger.py +++ b/tagger.py @@ -93,14 +93,14 @@ class FileScanner(HTMLParser): # Eventuelle URL-codierte Zeichen in die eigentlichen Zeichen umwandeln. (z.B. %2F -> /) link = unquote_plus(link) # Link-Teile in einzelne Wörter aufteilen - words += re.split(r'[/\-_#.?&=]', link) + link_words += re.split(r'[/\-_#.?&=]', link) for link_word in link_words: # Alle Buchstaben verkleinern link_word = link_word.lower() # Wenn ein Wort aus dem Text auch in einem Link vorkommt, wird die Bewertung erhöht. # Somit kann verhindert werden, dass Link-Bestandteile als Tags vorgeschlagen werden (z.B. E7xcsFpR). if link_word in words_with_usage: - words_with_usage[link_word] += 10 + words_with_usage[link_word].score += 10 # Die Wörter nach ihrer Bewertung sortieren return sorted(words_with_usage.values(), key=lambda tag: tag.score, reverse=True)