2022-05-28 12:49:10 +00:00
|
|
|
import json
|
2022-05-05 16:01:10 +00:00
|
|
|
import re
|
2022-05-05 17:30:56 +00:00
|
|
|
from dataclasses import dataclass
|
|
|
|
from html.parser import HTMLParser
|
2022-05-28 13:34:41 +00:00
|
|
|
from urllib.parse import unquote_plus
|
2022-05-05 17:30:56 +00:00
|
|
|
from pathlib import Path
|
|
|
|
|
|
|
|
from exclude import EXCLUDED_WORDS
|
|
|
|
|
2022-05-28 12:49:10 +00:00
|
|
|
SOURCE_DIR = Path('data')
|
|
|
|
OUTPUT_FILE = 'tags.json'
|
|
|
|
TAGS_PER_ARTICLE = 5
|
|
|
|
JSON_INDENT = 2
|
|
|
|
|
2022-05-28 17:22:30 +00:00
|
|
|
_UPPER_CHECK = re.compile(r'[A-Z]')
|
2022-05-05 16:01:10 +00:00
|
|
|
|
|
|
|
|
2022-05-05 17:30:56 +00:00
|
|
|
@dataclass
|
|
|
|
class Tag:
|
|
|
|
name: str
|
|
|
|
score: int
|
|
|
|
|
|
|
|
|
|
|
|
class FileScanner(HTMLParser):
|
|
|
|
def __init__(self, file: Path):
|
|
|
|
super().__init__()
|
|
|
|
self.file = file
|
|
|
|
self.texte = []
|
|
|
|
|
|
|
|
def scan_file(self):
|
2022-05-28 17:22:30 +00:00
|
|
|
# Datei einlesen
|
2022-05-05 17:30:56 +00:00
|
|
|
content = read_file(self.file)
|
2022-05-28 17:22:30 +00:00
|
|
|
# HTMLParser aufrufen um HTML-Syntax-Elemente zu entfernen.
|
2022-05-05 17:30:56 +00:00
|
|
|
self.feed(content)
|
|
|
|
|
|
|
|
words_with_usage = {}
|
|
|
|
words = []
|
|
|
|
for text in self.texte:
|
2022-05-28 17:22:30 +00:00
|
|
|
# Eventuelle URL-codierte Zeichen in die eigentliche Zeichen umwandeln. (z.B. %2F -> /)
|
2022-05-28 13:34:41 +00:00
|
|
|
text = unquote_plus(text)
|
2022-05-28 17:22:30 +00:00
|
|
|
# Textteile in einzelne Wörter aufteilen
|
2022-05-28 13:33:16 +00:00
|
|
|
words += re.split(r'[ /\-_#\n.?=]', text)
|
2022-05-05 17:30:56 +00:00
|
|
|
print(f'\nFile {self.file.parent.name} contains {len(words)} words')
|
2022-05-28 17:22:30 +00:00
|
|
|
# Titel in einzelne Wörter aufteilen
|
2022-05-05 17:30:56 +00:00
|
|
|
title_words = set(self.file.parent.name.split('-'))
|
|
|
|
for word in words:
|
2022-05-28 17:22:30 +00:00
|
|
|
# Verschiedene Zeichen vom Anfang und Ende der Wörter entfernen.
|
2022-05-05 17:30:56 +00:00
|
|
|
tag_name = word.strip(".,:;!\"'<>()")
|
2022-05-28 17:22:30 +00:00
|
|
|
# Leere Wörter ignorieren
|
2022-05-28 12:50:00 +00:00
|
|
|
if not tag_name:
|
2022-05-05 17:30:56 +00:00
|
|
|
continue
|
2022-05-28 17:22:30 +00:00
|
|
|
# Alle Buchstaben verkleinern, aber gleichzeitig originales Wort merken
|
2022-05-28 12:50:00 +00:00
|
|
|
word = tag_name.lower()
|
2022-05-28 17:22:30 +00:00
|
|
|
# Standard Bewertung für jedes Wort ist 10
|
2022-05-05 17:30:56 +00:00
|
|
|
score = 10
|
2022-05-28 17:22:30 +00:00
|
|
|
# Wörter, die in der Liste der ausgeschlossenen Wörter stehen, ignorieren
|
2022-05-05 17:30:56 +00:00
|
|
|
if word in EXCLUDED_WORDS:
|
2022-05-28 13:15:55 +00:00
|
|
|
continue
|
2022-05-28 17:22:30 +00:00
|
|
|
# Wörter, die nur aus Zahlen bestehen, ignorieren
|
2022-05-28 13:33:29 +00:00
|
|
|
if word.isdigit():
|
|
|
|
continue
|
2022-05-28 17:22:30 +00:00
|
|
|
# Die Bewertung von Wörtern, die im Titel vorkommen, deutlich verbessern.
|
2022-05-05 17:30:56 +00:00
|
|
|
if word in title_words:
|
|
|
|
score *= 4
|
2022-05-28 17:22:30 +00:00
|
|
|
# Die Bewertung von Wörtern, die kürzer oder gleich lang sind als 3 Buchstaben,
|
|
|
|
# entsprechend der Länge des Wortes verringern.
|
2022-05-28 13:19:00 +00:00
|
|
|
word_length = len(word)
|
|
|
|
if word_length <= 3:
|
|
|
|
score = int(score * word_length / 4)
|
2022-05-28 17:22:30 +00:00
|
|
|
# Die Anzahl der Großbuchstaben in dem originalen Wort zählen ...
|
|
|
|
upper_letters_count = len(_UPPER_CHECK.findall(tag_name))
|
|
|
|
# ... und die Bewertung entsprechen der Anzahl verbessern.
|
2022-05-07 17:50:36 +00:00
|
|
|
score += upper_letters_count * 5
|
2022-05-28 17:22:30 +00:00
|
|
|
# Die Bewertung für das Wort speichern.
|
|
|
|
# Wenn das Wort bereits eine Bewertung besitzt werden die beiden Bewertungen zusammen gerechnet.
|
2022-05-05 17:30:56 +00:00
|
|
|
if word not in words_with_usage:
|
|
|
|
words_with_usage[word] = Tag(name=tag_name, score=score)
|
|
|
|
else:
|
|
|
|
words_with_usage[word].score += score
|
2022-05-28 17:22:30 +00:00
|
|
|
# Die Wörter nach ihrer Bewertung sortieren
|
2022-05-28 12:49:10 +00:00
|
|
|
return sorted(words_with_usage.values(), key=lambda tag: tag.score, reverse=True)
|
2022-05-05 17:30:56 +00:00
|
|
|
|
2022-05-28 13:24:19 +00:00
|
|
|
def handle_starttag(self, tag, attrs):
|
2022-05-28 17:22:30 +00:00
|
|
|
# Die Links, die in den 'href' Attributen eines <a> HTML-Elements stehen, mit einbeziehen.
|
2022-05-28 13:24:19 +00:00
|
|
|
if tag != "a":
|
|
|
|
return
|
|
|
|
for attr_name, attr_value in attrs:
|
|
|
|
if attr_name == "href":
|
|
|
|
self.texte.append(attr_value)
|
|
|
|
break
|
|
|
|
|
2022-05-05 17:30:56 +00:00
|
|
|
def handle_data(self, data):
|
2022-05-28 17:22:30 +00:00
|
|
|
# Den Text innerhalb eines HTML-Elements mit einbeziehen.
|
2022-05-05 17:30:56 +00:00
|
|
|
self.texte.append(data)
|
2022-05-05 16:01:10 +00:00
|
|
|
|
|
|
|
|
2022-05-28 12:52:25 +00:00
|
|
|
def display_tags(tags, min_score):
|
2022-05-28 17:22:30 +00:00
|
|
|
# Die Ergebnisse auf der Konsole ausgeben.
|
2022-05-28 12:49:10 +00:00
|
|
|
for tag in tags:
|
|
|
|
if tag.score <= min_score:
|
2022-05-05 17:30:56 +00:00
|
|
|
continue
|
|
|
|
print(f"Score: {tag.score:>3} Word: {tag.name}")
|
2022-05-05 16:01:10 +00:00
|
|
|
|
|
|
|
|
2022-05-28 12:49:10 +00:00
|
|
|
class CustomJsonEncoder(json.JSONEncoder):
|
|
|
|
def default(self, obj):
|
|
|
|
if isinstance(obj, Tag):
|
|
|
|
return obj.name
|
|
|
|
return super().default(obj)
|
|
|
|
|
|
|
|
|
|
|
|
def write_tags(tags):
|
2022-05-28 17:22:30 +00:00
|
|
|
# Die Ergebnisse in JSON umwandeln.
|
2022-05-28 12:49:10 +00:00
|
|
|
content = json.dumps(tags, indent=JSON_INDENT, cls=CustomJsonEncoder)
|
2022-05-28 17:22:30 +00:00
|
|
|
# Das JSON in eine Datei schreiben.
|
2022-05-28 12:49:10 +00:00
|
|
|
with open(OUTPUT_FILE, 'w') as file:
|
|
|
|
file.write(content)
|
|
|
|
|
|
|
|
|
2022-05-05 16:01:10 +00:00
|
|
|
def read_file(file: Path) -> str:
|
2022-05-28 17:22:30 +00:00
|
|
|
# Eine Datei einlesen
|
2022-05-05 16:01:10 +00:00
|
|
|
with open(file, 'r') as file:
|
|
|
|
return file.read()
|
|
|
|
|
|
|
|
|
2022-05-28 12:49:10 +00:00
|
|
|
def main():
|
|
|
|
final_tags = {}
|
2022-05-28 17:22:30 +00:00
|
|
|
for file in SOURCE_DIR.glob('**/index.txt'): # Nach allen index.txt Dateien suchen
|
|
|
|
# Die Dateien, deren Ordner mit 'autosave-' beginnen, ignorieren.
|
2022-05-28 12:49:10 +00:00
|
|
|
title = file.parent.name
|
|
|
|
if title.startswith('autosave-'):
|
2022-05-28 12:08:28 +00:00
|
|
|
continue
|
2022-05-28 17:22:30 +00:00
|
|
|
# Die Datei analysieren
|
2022-05-05 17:30:56 +00:00
|
|
|
scanner = FileScanner(file)
|
2022-05-28 12:49:10 +00:00
|
|
|
tags = scanner.scan_file()
|
2022-05-28 17:22:30 +00:00
|
|
|
# Die Ergebnisse auf der Konsole ausgeben
|
2022-05-28 12:52:25 +00:00
|
|
|
display_tags(tags, min_score=20)
|
2022-05-28 17:22:30 +00:00
|
|
|
# Die eingestellte Anzahl an Tags für die Ausgabedatei übernehmen, sofern vorhanden.
|
2022-05-28 12:49:10 +00:00
|
|
|
final_tags[title] = tags[:TAGS_PER_ARTICLE] if len(tags) > TAGS_PER_ARTICLE else tags
|
2022-05-28 17:22:30 +00:00
|
|
|
# Die Ausgabedatei schreiben
|
|
|
|
write_tags(final_tags)
|
2022-05-05 16:01:10 +00:00
|
|
|
|
|
|
|
|
|
|
|
if __name__ == '__main__':
|
|
|
|
main()
|