fix link scoring

This commit is contained in:
OneNewDev 2022-06-08 19:00:49 +02:00
parent 73708fffd8
commit cf76cbca55

View file

@ -93,14 +93,14 @@ class FileScanner(HTMLParser):
# Eventuelle URL-codierte Zeichen in die eigentlichen Zeichen umwandeln. (z.B. %2F -> /)
link = unquote_plus(link)
# Link-Teile in einzelne Wörter aufteilen
words += re.split(r'[/\-_#.?&=]', link)
link_words += re.split(r'[/\-_#.?&=]', link)
for link_word in link_words:
# Alle Buchstaben verkleinern
link_word = link_word.lower()
# Wenn ein Wort aus dem Text auch in einem Link vorkommt, wird die Bewertung erhöht.
# Somit kann verhindert werden, dass Link-Bestandteile als Tags vorgeschlagen werden (z.B. E7xcsFpR).
if link_word in words_with_usage:
words_with_usage[link_word] += 10
words_with_usage[link_word].score += 10
# Die Wörter nach ihrer Bewertung sortieren
return sorted(words_with_usage.values(), key=lambda tag: tag.score, reverse=True)