diff --git a/README.md b/README.md index 3da94f7..00fd941 100644 --- a/README.md +++ b/README.md @@ -3,14 +3,37 @@ Generiert Tags aus HTML-Artikeln. Eine pure-python Lösung für -einen [GNU/Linux.ch Wettbewerb](https://gnulinux.ch/wettbewerb-gnu-linux-ch-verschlagworten) +einen [GNU/Linux.ch Wettbewerb](https://gnulinux.ch/wettbewerb-gnu-linux-ch-verschlagworten). + +## Funktionsweise + +1. Extrahiert den Text aus dem HTML +2. Jedes Wort bekommt eine Bewertung nach bestimmten Kriterien +3. Die Wörter mit den höchsten Bewertungen werden als Tags vorgeschlagen ## Voraussetzungen - Python 3.9 +- Ein `data` Ordner mit folgender Struktur: + ``` + ├── data + │ ├── ausblick-auf-kde-plasma-5-23-verbessertes-breeze-theme + │ │ └── index.txt + │ ├── aus-feedreader-wird-newsflash + │ │ └── index.txt + │ ├── auslieferung-des-volla-phones-fuer-november-geplant + │ │ └── index.txt + │ ├── autosave-320f77ed720ec9dd09e35e4ebee5235d + │ │ └── index.txt + │ ├── background-remover + │ │ └── index.txt + ``` + Ordner, die mit `autosave-` beginnen, werden ignoriert. ## Verwendung ``` python3 tagger.py ``` + +Das Ergebnis ist in der `tags.json` zu finden.