Data Lake Architektur und KI in GCP
Data Lake Architektur und KI in GCP
Konzeption und Entwicklung eines Data Lakes in GCP sowie auf die Entwicklung und den Betrieb von ETL- und Near-Realtime-Pipelines. Darüber hinaus führte ich PoCs im Bereich Machine Learning & KI durch in Bereich Text-Extraction und bin für Datenanalyse und Visualisierung verantwortlich.
In meinem Aufgabenbereich liegt auch die Umsetzung von DataOps und DevOps-Praktiken. Ich arbeite mit Technologien wie Apache Spark, HDFS, Stanford NLP, scikit-learn, gensim, Spark ML, Java, Python, Scala, Terraform, Gradle, CircleCI, GCP-Dienste wie MongoDB, PubSub, BigQuery, Dataproc, workflows-templates und Zeppelin, um die Datenverarbeitung effizient und skalierbar zu gestalten.