RSS-Feeds mit ML-Verfahren bearbeiten. In dieser Version alles in Python

- 📰 SPIEGEL
- 📺 Tagesschau
im Abstand von min. 5 Stunden und Speicherung von Titel, Kurzfassung, Link zur Vollmeldung
- 1-, 3- und 5-Wort-Ketten
- nach Ausblenden von 🛑 Stopp-Wörtern
- für gesamten Beobachtungszeitraum und die letzte Woche
- liest Auftrag P0Arufen von Blackboard
- ergibt Record mit SPIEGEL oder TAGESSCHAU und Datum/Uhrzeit
- wenn nicht: diese 2 Records werden erzeugt, Exit
- wieviel Zeit ist vergangen?
- zu wenig: Exit
- das ist wichtig, um die RSS-Server nicht unnötig zu beanspruchen und in den Verdacht eies DoS-Angriffs zu kommen
- liest RSS ein
- schreibt ohne Veränderung in Datei
- schreibt Auftrag für P2Eintragen und Dateinamen in Blackboard
- schreibt neuen Auftrag für P0Abrufen und Zeit in Blackboard
- löscht bearbeiteten Record aus Blackboard
ist irgendwo verloren 😵 gegangen
- liest von Blackboard
- ergibt Record mit Dateinamen
- liest Datei mit vom Feed abgerufenen Meldungen
- Meldungen bestehen aus
- Titel
- Inhalt
- weiteren Angaben
- Meldungen werden nur so weit aufbereitet, dass sie in der DB gespeichert werden können
- z.B.kein >'<
- Stopp-Wörter werden erst im nächsten Schritt behandelt
- schreibt Meldungen in Datenbank
- löscht doppelte Meldungen
- Titel und Meldung zusammenfassen
- Sonderzeichen und Stoppwörter entfernen,
- in Kleinschreibung umwandeln,
- in Tabelle daten speichern
Dabei werden ein paar Umwandlungen gemacht, z.B.
| aus | wird |
|---|---|
| & | und |
| d.h. | das heisst |
| z.b. | zum beispiel |
| ß | ss |
Jedes Programm
- holt die um Stoppwörter bereinigten Meldungen aus der Datenbank und
- zerlegt sie in Token
- Einzelwörter oder n-Wortfolgen, gesteuert durch Parameter
- Zählt die Types
- schreibt die Summen für jeden Type in die passende Tabelle
- vergleicht die Häufigkeit von Wörtern in allen Aufzeichnungen mit der in den letzten x Tagen (x z,B. 7)
- listet auf, was signifikant häufiger ist
... fasst zentrale Module zusammen
Einbinden mit export PYTHONPATH="../NMLlib"
[ ] ML-Verfahren für P6altneu einsetzen
Nachrichten-ML © 2025-2026 by Dr. Burkhard Borys is licensed under CC BY-NC-ND 4.0. To view a copy of this license, visit https://creativecommons.org/licenses/by-nc-nd/4.0/
[1] Mit Hilfe von VS Code's Copilot.
[2]. Alberto Boschetti and Luca Massaron, Python data science essentials : become an
efficient data science practitioner by understanding Python’s key concepts. Packt
Publishing, 2016.