Data Scraping 101
Speakers:
Robert Müller (Senior Site Reliability Engineer, Mozilla) / Homepage
Scheduled time: Sun, 13:00 - Room V3 - Duration 60 Min.
Im Rahmen meiner Bachelorarbeit habe ich Anfang 2024 begonnen Abfahrtsdaten der Münchner Verkehrsgesellschaft (MVG) zu sammeln und diese anschließend auszuwerten. Das Ziel war über mehrere Monate, inzwischen Jahre, so zuverlässig wie möglich Daten von der API abzurufen und sicher zu speichern. Später kam das Strukturieren der Daten in eine Datenbank (Clickhouse) dazu.
In diesem Vortrag möchte allgemein darauf eingehen, was ich beachtet habe um möglichst "freundlich" aber oft Daten abzurufen ohne zu stören. Wie sammle ich die Daten, wo speichere ich sie, was ist mit Kompression, warum eigentlich Clickhouse, wie mache ich sie am Ende bunt und gibt es eigentlich Monitoring?
Alle relevanten Tools sind Open Source und auch der MVG Observer, der als Proof of Concept und Beispiel im Vortrag dient, kann im Detail angesehen werden.
Website: https://mvg.observer
Desired previous knowledge: Programmierkenntnisse und technisches Verständnis von Vorteil aber nicht erforderlich.
