Near-Real-Time-Suche, ETL, NLP und Crawling

Hauptverantwortlichkeiten umfassen die Konzeption und Entwicklung eines Metastores sowie das Design und die Architektur von Suchlösungen, die die Geschäftsanforderungen erfüllen, unter Verwendung von Lucene-basierten Suchtechnologien wie Elasticsearch und Apache Solr. Des Weiteren definieren und implementieren Strategien zur Verbesserung der Suchrelevanz, um Suchergebnisse optimal auf die Geschäftsanforderungen abzustimmen.

Sowie entwicklung von Lösungen für die Near-Real-Time-Suche, Batch-Prozessierung und Crawling. Zudem arbeitete ich an der automatisierten Erkennung und Extraktion von Organisationen und Personen durch Text Mining und Natural Language Processing (NLP). Darüber hinaus definiere und implementiere ich eine ETL-Leyer zur Anreicherung von Daten sowie Datenanalyse und Visualisierung.

Für diese Aufgaben nutzte ich Technologien wie Apache Spark, HDFS, Stanford NLP, scikit-learn, Solr-Cloud, Neo4j, MongoDB, JSON, Java, Python, Scala, Zeppelin, Kibana, Elasticsearch, Spring, Spring-Data, Maven, Jenkins, Cloudera, AWS, Google Cloud und Telekom Cloud.