39 lines
1.1 KiB
Markdown
39 lines
1.1 KiB
Markdown
# Tagger
|
|
|
|
Generiert Tags aus HTML-Artikeln.
|
|
|
|
Eine pure-python Lösung für
|
|
einen [GNU/Linux.ch Wettbewerb](https://gnulinux.ch/wettbewerb-gnu-linux-ch-verschlagworten).
|
|
|
|
## Funktionsweise
|
|
|
|
1. Extrahiert den Text aus dem HTML
|
|
2. Jedes Wort bekommt eine Bewertung nach bestimmten Kriterien
|
|
3. Die Wörter mit den höchsten Bewertungen werden als Tags vorgeschlagen
|
|
|
|
## Voraussetzungen
|
|
|
|
- Python 3.9
|
|
- Ein `data` Ordner mit folgender Struktur:
|
|
```
|
|
├── data
|
|
│ ├── ausblick-auf-kde-plasma-5-23-verbessertes-breeze-theme
|
|
│ │ └── index.txt
|
|
│ ├── aus-feedreader-wird-newsflash
|
|
│ │ └── index.txt
|
|
│ ├── auslieferung-des-volla-phones-fuer-november-geplant
|
|
│ │ └── index.txt
|
|
│ ├── autosave-320f77ed720ec9dd09e35e4ebee5235d
|
|
│ │ └── index.txt
|
|
│ ├── background-remover
|
|
│ │ └── index.txt
|
|
```
|
|
Ordner, die mit `autosave-` beginnen, werden ignoriert.
|
|
|
|
## Verwendung
|
|
|
|
```
|
|
python3 tagger.py
|
|
```
|
|
|
|
Das Ergebnis ist in der `tags.json` zu finden.
|