update README.md

This commit is contained in:
OneNewDev 2022-05-29 16:23:38 +02:00
parent 0856e32443
commit 40c74bf61c
1 changed files with 24 additions and 1 deletions

View File

@ -3,14 +3,37 @@
Generiert Tags aus HTML-Artikeln.
Eine pure-python Lösung für
einen [GNU/Linux.ch Wettbewerb](https://gnulinux.ch/wettbewerb-gnu-linux-ch-verschlagworten)
einen [GNU/Linux.ch Wettbewerb](https://gnulinux.ch/wettbewerb-gnu-linux-ch-verschlagworten).
## Funktionsweise
1. Extrahiert den Text aus dem HTML
2. Jedes Wort bekommt eine Bewertung nach bestimmten Kriterien
3. Die Wörter mit den höchsten Bewertungen werden als Tags vorgeschlagen
## Voraussetzungen
- Python 3.9
- Ein `data` Ordner mit folgender Struktur:
```
├── data
│ ├── ausblick-auf-kde-plasma-5-23-verbessertes-breeze-theme
│ │ └── index.txt
│ ├── aus-feedreader-wird-newsflash
│ │ └── index.txt
│ ├── auslieferung-des-volla-phones-fuer-november-geplant
│ │ └── index.txt
│ ├── autosave-320f77ed720ec9dd09e35e4ebee5235d
│ │ └── index.txt
│ ├── background-remover
│ │ └── index.txt
```
Ordner, die mit `autosave-` beginnen, werden ignoriert.
## Verwendung
```
python3 tagger.py
```
Das Ergebnis ist in der `tags.json` zu finden.