Data Lake Architektur und KI in GCP

Konzeption und Entwicklung eines Data Lakes in GCP sowie auf die Entwicklung und den Betrieb von ETL- und Near-Realtime-Pipelines. Darüber hinaus führte ich PoCs im Bereich Machine Learning & KI durch in Bereich Text-Extraction und bin für Datenanalyse und Visualisierung verantwortlich.


In meinem Aufgabenbereich liegt auch die Umsetzung von DataOps und DevOps-Praktiken. Ich arbeite mit Technologien wie Apache Spark, HDFS, Stanford NLP, scikit-learn, gensim, Spark ML, Java, Python, Scala, Terraform, Gradle, CircleCI, GCP-Dienste wie MongoDB, PubSub, BigQuery, Dataproc, workflows-templates und Zeppelin, um die Datenverarbeitung effizient und skalierbar zu gestalten.