ETL-Pipeline — Datenintegration aus heterogenen Quellen DEMO

Extraktion, Transformation und Laden von Umweltdaten — von der Rohquelle bis zur sauberen Datenbank.

Extract
CSV-Dateien
Messwerte, Monitoring-Daten
REST-API (GBIF)
Artdaten, Verbreitungskarten
Web-Scraping
PDFs, Berichte, Amtsblätter
Excel-Tabellen
Altdaten, Bestandslisten
SQL-Datenbank
Bestandsdaten, Referenztabellen
Transform
Formatkonvertierung
CSV/Excel nach JSON
Datenbereinigung
Duplikate, Nullwerte, Encoding
Normalisierung
Einheiten, Koordinaten, Datumsformate
Anreicherung
Reverse-Geocoding, Taxonomie-Lookup
Qualitätsprüfung
Schwellenwerte, Plausibilität
Load
PostgreSQL/PostGIS
Primärspeicher, Geodaten
REST-API
Auslieferung, Endpunkte
CSV/GeoJSON-Export
Reports, Datenweitergabe
Live-Statistiken
0/5
Quellen verbunden
0
Datensätze extrahiert
0 Schritte
Transformationen
0,0%
Qualitätsprüfungen bestanden
0
Datensätze geladen
0
Verworfen (Qualität)
Datenqualitäts-Report
Prüfung Ergebnis Status
Duplikate entfernt 342 OK
Fehlende Koordinaten 89 ergänzt OK
Ungültige Datumsformate 156 korrigiert OK
Schwellenwert-Verletzungen 12 markiert Warnung
Encoding-Fehler 207 repariert OK
Beispiel-Transformation
Vorher/Nachher — Datensatz-Normalisierung

Vorher (Rohformat)

Art;Datum;Ort;Wert Seeadler;15.03.2024;52.1234 N, 11.5678 E;1 BP

Nachher (Normalisiert)

{ "species": "Haliaeetus albicilla", "common_name": "Seeadler", "observed_at": "2024-03-15T00:00:00Z", "geometry": { "type": "Point", "coordinates": [11.5678, 52.1234] }, "value": 1, "unit": "breeding_pairs", "source": "monitoring_st_2024", "quality_score": 0.95 }
Tech-Stack
Python PostgreSQL/PostGIS Playwright pandas FastAPI Docker