Data Engineering mit Data Mesh Kenntnissen

Freiberuflich in: Remote & Berlin

Dauer: 3 Monate

100% Auslastung

Start: November 2024

Dauer: 3 Monate
Auslastung: Vollzeit
Lokation: Remote & Berlin (mind. 1 Woche am Stück / Monat)

Projektbeschreibung:

Das Team baut eine interne Plattform für Software-Produktentwickler auf, um die Entwicklung und Bereitstellung von Softwareprodukten zur Bewältigung der großen Herausforderungen im Energiesektor. Die Plattform ist eine serviceorientierte, Cloud-native Plattform, die entwickelt wird, um Anwendungsteams mit Selbstbedienungsfunktionen für die Entwicklung, die Ausführung und den Betrieb ihrer Softwareprodukte. Die Plattform bietet Dienste für Anwendungsinfrastruktur, Daten, Service Lifecycle Management, Anwendungsentwicklung und -bereitstellung sowie Dienstleistungen für den Betrieb ihrer Softwareprodukte. Die Plattform wird als hybride Cloud bereitgestellt.

Aufgaben:

* Entwurf, Entwicklung und Pflege skalierbarer Datenarchitekturen, einschließlich Datenbanken, Data Lakes und Data Warehouses
* Implementierung von Best Practices für die Speicherung, den Abruf und die Verarbeitung von Daten
* Vorantreiben der Einführung von Data Mesh-Prinzipien, Förderung dezentraler Dateneigentümerschaft und -architektur
* Konzeptualisierung, Design und Implementierung von Data Mesh Proof of Concepts (PoCs) zur Validierung dezentraler Daten Architekturen
* Implementierung eines umfassenden Datenkatalogs zur Dokumentation von Metadaten, Datenabstammung und Datenwörterbüchern für alle Datenbestände
* Sicherstellung, dass die Daten leicht auffindbar und unternehmensweit zugänglich sind
* Entwicklung und pflege von wiederverwendbaren Datenprodukten, die verschiedenen Geschäftsbereichen dienen. Diese Datenprodukte sollten hochwertige, zuverlässige Daten gewährleisten, die sich leicht integrieren
* Entwurf und Implementierung von Datenmodellen zur Unterstützung von Geschäftsanforderungen
* Enge Zusammenarbeit mit Datenwissenschaftlern und Analysten, um Datenanforderungen zu verstehen und zu strukturieren
* Entwicklung und Pflege von ETL-Prozessen (Extrahieren, Transformieren, Laden) zum Verschieben und Transformieren von Daten aus verschiedenen Quellen in die Dateninfrastruktur in Übereinstimmung mit den Data Mesh-Prinzipien

* Implementierung und Durchsetzung von Datenqualitätsstandards und Governance-Richtlinien
* Entwicklung und Pflege der Datendokumentation für Metadaten, Lineage und Datenwörterbücher
* Entwurf und Implementierung von Kubernetes-basierten Bereitstellungsstrategien für skalierbare, zuverlässige und verwaltbare Datentechnologien
* Zusammenarbeit mit DevOps- und Infrastruktur-Teams zur Optimierung von Prozessen für die Bereitstellung von Datentechnologien in einer Kubernetes-Umgebung
* Dokumentation von Data Mesh-Implementierungen, PoC-Ergebnissen und Best Practices für den Wissensaustausch und zukünftige Referenz

Muss-Anforderungen:

* Bachelor- oder Master-Abschluss in Informatik, Data Science oder einem verwandten Bereich
* Mindestens 5 Jahre allgemeine IT-Erfahrung
* Mindestens 3 Jahre Erfahrung mit Big Data
* Nachgewiesene praktische Erfahrung in der Softwareentwicklung
* Beherrschung von Datenverarbeitungssprachen wie SQL, Java, Python oder Scala
* Kenntnisse und Erfahrungen mit mindestens einigen der folgenden Datentechnologien/Frameworks:

* RDBMS (PostgreSQL/MySql usw.)
* NoSQL-Speicher (MongoDB, Cassandra, Neo4j usw.)
* Zeitreihen (InfluxDB, OpenTSDB, TimescaleDB, Prometheus usw.)
* Workflow-Orchestrierung (AirFlow/Oozie usw.)
* Datenintegration/Ingestion (Flume usw.)
* Nachrichtenübermittlung/Daten-Streaming (Kafka/RabbitMQ usw.)
* Datenverarbeitung (Spark, Flink usw.)
* und/oder mit ihren Cloud-Pendants, d. h. Cloud Data/Analytics Services (GCP, Azure, AWS)

* Vertrautheit mit Referenz-Big-Data-Architekturen (Warehouse, Data Lake, Data Lakehouse) und deren Implementierung
* Erfahrung mit der Implementierung und dem Betrieb datenintensiver Anwendungen
* Starker Fokus auf DataOps/DevOps
* Sehr gute Englischkenntnisse

Soll-Anforderungen:

* Vertiefte K8s-Kenntnisse
* Vertiefte Kenntnisse über bewährte Praktiken im Bereich Datenschutz und Datensicherheit
* Nachgewiesene Erfahrung mit DataMesh-Grundsätzen in der Praxis
* Erfahrung mit der Entwicklung und/oder dem Betrieb von Datenplattformen
* Kenntnisse und Erfahrungen im Lebenszyklusmanagement von Daten (z. B. CD4ML, MLOps, ...)