You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
OneNewDev db471d5559 use max tags instead of min score as display limit 4 months ago
.gitignore ignore data folder and add example-data.zip 4 months ago
LICENSE add LICENSE 4 months ago
README.md update README.md 4 months ago
example-data.zip ignore data folder and add example-data.zip 4 months ago
exclude.py add excluded words 4 months ago
tagger.py use max tags instead of min score as display limit 4 months ago

README.md

Tagger

Generiert Tags aus HTML-Artikeln.

Eine pure-python Lösung für einen GNU/Linux.ch Wettbewerb.

Funktionsweise

  1. Extrahiert den Text aus dem HTML
  2. Jedes Wort bekommt eine Bewertung nach bestimmten Kriterien
  3. Die Wörter mit den höchsten Bewertungen werden als Tags vorgeschlagen

Voraussetzungen

  • Python 3.9
  • Ein data Ordner mit folgender Struktur:
    ├── data
    │   ├── ausblick-auf-kde-plasma-5-23-verbessertes-breeze-theme
    │   │   └── index.txt
    │   ├── aus-feedreader-wird-newsflash
    │   │   └── index.txt
    │   ├── auslieferung-des-volla-phones-fuer-november-geplant
    │   │   └── index.txt
    │   ├── autosave-320f77ed720ec9dd09e35e4ebee5235d
    │   │   └── index.txt
    │   ├── background-remover
    │   │   └── index.txt
    
    Ordner, die mit autosave- beginnen, werden ignoriert.

Verwendung

python3 tagger.py

Das Ergebnis ist in der tags.json zu finden.