GNU/Linux.ch Wettbewerb
https://gnulinux.ch/wettbewerb-gnu-linux-ch-verschlagworten
data | ||
.gitignore | ||
exclude.py | ||
README.md | ||
tagger.py |
Tagger
Generiert Tags aus HTML-Artikeln.
Eine pure-python Lösung für einen GNU/Linux.ch Wettbewerb.
Funktionsweise
- Extrahiert den Text aus dem HTML
- Jedes Wort bekommt eine Bewertung nach bestimmten Kriterien
- Die Wörter mit den höchsten Bewertungen werden als Tags vorgeschlagen
Voraussetzungen
- Python 3.9
- Ein
data
Ordner mit folgender Struktur:
Ordner, die mit├── data │ ├── ausblick-auf-kde-plasma-5-23-verbessertes-breeze-theme │ │ └── index.txt │ ├── aus-feedreader-wird-newsflash │ │ └── index.txt │ ├── auslieferung-des-volla-phones-fuer-november-geplant │ │ └── index.txt │ ├── autosave-320f77ed720ec9dd09e35e4ebee5235d │ │ └── index.txt │ ├── background-remover │ │ └── index.txt
autosave-
beginnen, werden ignoriert.
Verwendung
python3 tagger.py
Das Ergebnis ist in der tags.json
zu finden.