# Tagger Generiert Tags aus HTML-Artikeln. Eine pure-python Lösung für einen [GNU/Linux.ch Wettbewerb](https://gnulinux.ch/wettbewerb-gnu-linux-ch-verschlagworten). ## Funktionsweise 1. Extrahiert den Text aus dem HTML 2. Jedes Wort bekommt eine Bewertung nach bestimmten Kriterien 3. Die Wörter mit den höchsten Bewertungen werden als Tags vorgeschlagen ## Voraussetzungen - Python 3.9 - Ein `data` Ordner mit folgender Struktur: ``` ├── data │ ├── ausblick-auf-kde-plasma-5-23-verbessertes-breeze-theme │ │ └── index.txt │ ├── aus-feedreader-wird-newsflash │ │ └── index.txt │ ├── auslieferung-des-volla-phones-fuer-november-geplant │ │ └── index.txt │ ├── autosave-320f77ed720ec9dd09e35e4ebee5235d │ │ └── index.txt │ ├── background-remover │ │ └── index.txt ``` Ordner, die mit `autosave-` beginnen, werden ignoriert. ## Verwendung ``` python3 tagger.py ``` Das Ergebnis ist in der `tags.json` zu finden.