fix link scoring
This commit is contained in:
parent
73708fffd8
commit
cf76cbca55
1 changed files with 2 additions and 2 deletions
|
@ -93,14 +93,14 @@ class FileScanner(HTMLParser):
|
|||
# Eventuelle URL-codierte Zeichen in die eigentlichen Zeichen umwandeln. (z.B. %2F -> /)
|
||||
link = unquote_plus(link)
|
||||
# Link-Teile in einzelne Wörter aufteilen
|
||||
words += re.split(r'[/\-_#.?&=]', link)
|
||||
link_words += re.split(r'[/\-_#.?&=]', link)
|
||||
for link_word in link_words:
|
||||
# Alle Buchstaben verkleinern
|
||||
link_word = link_word.lower()
|
||||
# Wenn ein Wort aus dem Text auch in einem Link vorkommt, wird die Bewertung erhöht.
|
||||
# Somit kann verhindert werden, dass Link-Bestandteile als Tags vorgeschlagen werden (z.B. E7xcsFpR).
|
||||
if link_word in words_with_usage:
|
||||
words_with_usage[link_word] += 10
|
||||
words_with_usage[link_word].score += 10
|
||||
|
||||
# Die Wörter nach ihrer Bewertung sortieren
|
||||
return sorted(words_with_usage.values(), key=lambda tag: tag.score, reverse=True)
|
||||
|
|
Loading…
Reference in a new issue