Find a file
2022-06-08 19:09:53 +02:00
.gitignore ignore data folder and add example-data.zip 2022-05-29 16:27:11 +02:00
example-data.zip ignore data folder and add example-data.zip 2022-05-29 16:27:11 +02:00
exclude.py add excluded words 2022-06-08 19:09:53 +02:00
LICENSE add LICENSE 2022-05-29 16:38:23 +02:00
README.md update README.md 2022-05-29 16:23:38 +02:00
tagger.py fix link scoring 2022-06-08 19:00:49 +02:00

Tagger

Generiert Tags aus HTML-Artikeln.

Eine pure-python Lösung für einen GNU/Linux.ch Wettbewerb.

Funktionsweise

  1. Extrahiert den Text aus dem HTML
  2. Jedes Wort bekommt eine Bewertung nach bestimmten Kriterien
  3. Die Wörter mit den höchsten Bewertungen werden als Tags vorgeschlagen

Voraussetzungen

  • Python 3.9
  • Ein data Ordner mit folgender Struktur:
    ├── data
    │   ├── ausblick-auf-kde-plasma-5-23-verbessertes-breeze-theme
    │   │   └── index.txt
    │   ├── aus-feedreader-wird-newsflash
    │   │   └── index.txt
    │   ├── auslieferung-des-volla-phones-fuer-november-geplant
    │   │   └── index.txt
    │   ├── autosave-320f77ed720ec9dd09e35e4ebee5235d
    │   │   └── index.txt
    │   ├── background-remover
    │   │   └── index.txt
    
    Ordner, die mit autosave- beginnen, werden ignoriert.

Verwendung

python3 tagger.py

Das Ergebnis ist in der tags.json zu finden.