Tagger/README.md

40 lines
1.1 KiB
Markdown
Raw Normal View History

2022-05-28 17:39:34 +00:00
# Tagger
Generiert Tags aus HTML-Artikeln.
Eine pure-python Lösung für
2022-05-29 14:23:38 +00:00
einen [GNU/Linux.ch Wettbewerb](https://gnulinux.ch/wettbewerb-gnu-linux-ch-verschlagworten).
## Funktionsweise
1. Extrahiert den Text aus dem HTML
2. Jedes Wort bekommt eine Bewertung nach bestimmten Kriterien
3. Die Wörter mit den höchsten Bewertungen werden als Tags vorgeschlagen
2022-05-28 17:39:34 +00:00
## Voraussetzungen
- Python 3.9
2022-05-29 14:23:38 +00:00
- Ein `data` Ordner mit folgender Struktur:
```
├── data
│ ├── ausblick-auf-kde-plasma-5-23-verbessertes-breeze-theme
│ │ └── index.txt
│ ├── aus-feedreader-wird-newsflash
│ │ └── index.txt
│ ├── auslieferung-des-volla-phones-fuer-november-geplant
│ │ └── index.txt
│ ├── autosave-320f77ed720ec9dd09e35e4ebee5235d
│ │ └── index.txt
│ ├── background-remover
│ │ └── index.txt
```
Ordner, die mit `autosave-` beginnen, werden ignoriert.
2022-05-28 17:39:34 +00:00
## Verwendung
```
python3 tagger.py
```
2022-05-29 14:23:38 +00:00
Das Ergebnis ist in der `tags.json` zu finden.