Tagger/README.md
2022-05-29 16:23:38 +02:00

1.1 KiB

Tagger

Generiert Tags aus HTML-Artikeln.

Eine pure-python Lösung für einen GNU/Linux.ch Wettbewerb.

Funktionsweise

  1. Extrahiert den Text aus dem HTML
  2. Jedes Wort bekommt eine Bewertung nach bestimmten Kriterien
  3. Die Wörter mit den höchsten Bewertungen werden als Tags vorgeschlagen

Voraussetzungen

  • Python 3.9
  • Ein data Ordner mit folgender Struktur:
    ├── data
    │   ├── ausblick-auf-kde-plasma-5-23-verbessertes-breeze-theme
    │   │   └── index.txt
    │   ├── aus-feedreader-wird-newsflash
    │   │   └── index.txt
    │   ├── auslieferung-des-volla-phones-fuer-november-geplant
    │   │   └── index.txt
    │   ├── autosave-320f77ed720ec9dd09e35e4ebee5235d
    │   │   └── index.txt
    │   ├── background-remover
    │   │   └── index.txt
    
    Ordner, die mit autosave- beginnen, werden ignoriert.

Verwendung

python3 tagger.py

Das Ergebnis ist in der tags.json zu finden.