Redshift raus, Snowflake rein – So migriert sevDesk sein Warehouse, mit Michel E. (2/3)

Shownotes

Was passiert, wenn ein wachsendes SaaS-Unternehmen wie sevDesk seine komplette Dateninfrastruktur auf ein neues Niveau hebt? In dieser Folge spricht Jonas Rashedi mit Michel Ebner, Team Lead Data Engineering, über die technischen Grundlagen hinter der Datenstrategie.

Michel erklärt, warum sich das Team für Snowflake entschieden hat, wie eine Migration ohne Datenverlust gelingt – und wie sevDesk seine Architektur über Jahre modular aufgebaut hat: mit spezialisierten Tools, sauberer Aufgabentrennung und viel Erfahrungswissen.

Ein Deep Dive für alle, die Data Engineering strategisch denken – und technologische Entscheidungen faktenbasiert treffen wollen.

MY DATA IS BETTER THAN YOURS ist ein Projekt von BETTER THAN YOURS, der Marke für richtig gute Podcasts.

Du möchtest gezielt Werbung im Podcast MY DATA IS BETTER THAN YOURS schalten? Zum Kontaktformular: https://2frg6t.share-eu1.hsforms.com/2ugV0DR-wTX-mVZrX6BWtxg

Zum LinkedIn-Profil von Michel: https://www.linkedin.com/in/michel-ebner/

Zur Homepage von sevdesk: https://sevdesk.de/

Zu allen wichtigen Links rund um Jonas und den Podcast: https://linktr.ee/jonas.rashedi

00:00 Einstieg & Vorstellung Michel 08:00 Rolle von Data Engineering bei sevDesk 15:00 Toolstack: Meltano, Stitch, Snowplow 24:00 Architektur-Entscheidungen & Trennung von ELT 32:00 Warum Snowflake? Analyse & Migrationsprozess 40:00 Orchestrierung mit Dexter & DBT-Pitfalls 48:00 Learnings aus 600 Modellen & Qualitätssicherung

Du möchtest deine Werbung in diesem und vielen anderen Podcasts schalten? Kein Problem!
Für deinen Zugang zu zielgerichteter Podcast-Werbung, klicke hier.

Audiomarktplatz.de - Geschichten, die bleiben - überall und jederzeit!

Transkript anzeigen

00:00:00: Wie laufen eigentlich Migrationsprojekte im Data Warehouse ab?

00:00:03: Wie und wo entwickeln wir uns mit dem Thema Modern Data Stack hin?

00:00:07: Was ist das neue Buzzword, was kommt?

00:00:09: Das sind alles Fragen, die ich mit dem lieben Michelle von ZEVDESK in der heutigen Folge, die etwas technischer geworden ist, als sonst besprechen.

00:00:20: Neue Folgen jeden Freitag.

00:00:22: In dieser digitalen Welt gibt es

00:00:24: einen speziellen Faktor, der über Erfolg und Misserfolg entscheidet.

00:00:28: Daten.

00:00:29: Doch nur die wenigsten

00:00:30: wissen sie für sich

00:00:31: zu nutzen.

00:00:32: Wer seine Kunden verstehen will,

00:00:34: um ihnen das bieten zu

00:00:35: können, was sie brauchen, kommt um ein professionelles Datenmanagement nicht herum.

00:00:39: Jonas Rascheli interviewt andere

00:00:41: Experten aus den Data Bereichen

00:00:43: und zeigt Schritt für Schritt, wie genau das funktioniert.

00:00:52: Herzlich willkommen zu.

00:00:52: My Data is Better Than Yours, der Data Podcast.

00:00:55: Schön, dass ihr eingeschalten habt.

00:00:57: Die zweite Folge mit Seth Desk, mir gegenüber sitzt der liebe Michelle.

00:01:02: Es geht ums Thema Data Engineering.

00:01:06: Stelle dich noch mal kurz vor, wer du bist, was du machst, warum du vielleicht auch drei Sterne auf der Brust trägst und dann steigen wir ins tolle Thema ein.

00:01:14: Ja, ich bin Michel.

00:01:17: Also erstmal vielen, vielen Dank für die Einladung.

00:01:19: Ich

00:01:19: bin gerne sehr

00:01:19: happy zu sein und gespannt auf das Gespräch.

00:01:23: Wie gesagt, ich bin Michel.

00:01:25: Ich bin Team Lead Data Engineering seit sechs Monaten fast.

00:01:29: Und die drei Sterne stehen für die Anzahl der Jahre, die ich bei SF des Spin.

00:01:33: Eigentlich sollten es bald fünf sein.

00:01:35: Man muss die Jacke aber immer wegbringen.

00:01:37: Und ich geb die nicht so gerne her.

00:01:39: Gerne her, ich hab die oftmals zu Hause an.

00:01:43: Also pro Jahr ein Stern?

00:01:45: Genau,

00:01:45: gut.

00:01:46: Gibt's Leute, die haben den gesamten Kreis voll?

00:01:50: Das Maximum ist jetzt elf, fast.

00:01:55: Also ich glaub nicht, dass elf komplett den Kreis zu machen.

00:01:58: Ja,

00:01:58: drei, sechs, ja.

00:02:00: Man kommt

00:02:01: so drei Viertel vielleicht.

00:02:05: Schöne, ich find's cool, damit die Leute sehen, wer da ist, wie lang man da ist.

00:02:12: Viele haben sie auch nicht an, muss man sagen.

00:02:15: Man sieht sie sehr oft, wenn alle zusammenkommen während der Self-Week.

00:02:19: Das macht dann auch Spaß.

00:02:21: Ja, cool.

00:02:23: Jetzt hab ich dich unterbrochen, als ich vorstellen wollte.

00:02:26: Ja, was ich mach, ich sag immer... Ja, Data Engineering sorgen dafür, dass die Daten alle an einer Stelle sind, damit die Analysten und Data Scientists ihre Arbeit machen können.

00:02:39: Dazu gehören nicht nur Daten, sondern die ganze Infrastruktur.

00:02:43: Sonst zu mir, ich lebe in Frankreich, in Straßburg, also gehe auch täglich über die Grenze.

00:02:50: Weil du nach Offenburg sozusagen pendelst?

00:02:52: Ja, nicht nur bei der Arbeit.

00:02:57: Ansonsten privat.

00:03:00: Einiges an Sport und sehr spiel.

00:03:01: Ist ja gern Petal, Volleyball.

00:03:02: Ja.

00:03:03: Cool, Petal habe ich auch angefangen.

00:03:04: Das ist super, super addiktive Sport.

00:03:07: Ich kann dir nur unsere Petal, also ich bin ja bei Falke.

00:03:10: Wir haben Petal des Socken entwickelt.

00:03:13: Kann ich nur empfehlen.

00:03:14: Es geht um diese schnelle Stoppen und Laufen.

00:03:20: Start und Stopps sozusagen und da sind spannende... Vielleicht kann ich dir im Nachgang auch mal welche zuschicken, musst du mir deine Größe fragen.

00:03:27: Das wäre sehr schön.

00:03:27: Ich würde dich sehr gern testen.

00:03:30: Okay, wieder unterbrochen.

00:03:32: Ich zügele mich.

00:03:34: Alles gut?

00:03:35: Nee, aber das war's auch so ziemlich zu mir.

00:03:39: Meine Abteilung, wir sind zu dritt.

00:03:42: Ich bin nicht nur Lead, ich bin auch aktiv, Lead und Hands-on unterwegs.

00:03:48: Dann habe ich eine Mitarbeiterin, die Data Engineering macht und einen Mitarbeiter, der AI Automation macht für CS.

00:03:57: Das ist ne Neustelle, die wir... gemacht haben, eröffnet haben, weil wir auch den Need von CSC immer mehr Sachen automatisieren zu wollen und es gibt immer mehr Möglichkeiten, mehr Tools, um das sehr schnell zu machen.

00:04:09: So jetzt, ähm, Sprecher mit dem Techie.

00:04:14: Was begeistert dich in der Technik?

00:04:17: Die Flexibilität, was man alles mit machen kann, Grenzen sind wenig gesetzt, wendigere Regeln.

00:04:26: Also wenn Grenzen gesetzt sind, dann meistens von Regeln, die irgendwo anders herkommen.

00:04:31: Und ich liebe es einfach, die Probleme zu haben.

00:04:33: Also wenn man ein aktives Problem hat, jemand kommt, der vielleicht nicht so technisch affin ist oder so und hat ein Problem, man kann das dann mit der Technik lösen und die Begeisterung der Person, das zu sehen und auch das Problem zu knacken, finde ich ultra spannend.

00:04:48: Jetzt bist du drei Jahre bei Saftesk oder bald fünf hast du gesagt, so um drei Sterne, fünf Jahre, so um, habe ich mich fast fehlleiten lassen.

00:04:56: Was hast du denn vorgefunden, als du gestartet bist?

00:04:59: Wie alt ist Saftesk, elf Jahre?

00:05:01: Saftesk ist jetzt October, dreizehn, ja.

00:05:05: Wir sind fünfundzwanzig, das sind zwölf Jahre.

00:05:09: Ich habe eine Architektur vorgefunden, die eigentlich schon gut war für den Stand, wo Saftesk war.

00:05:15: Ja.

00:05:15: Ich bin eingestiegen, da waren es knapp über hundert Mitarbeiter.

00:05:20: Es waren zwei Analytics Engineers und das war das Data Team.

00:05:25: Ich bin dann dazu gekommen als Data Engineer.

00:05:27: Dann waren wir zu dritt, direkt unter meinem CFO.

00:05:31: Dann gab es noch Analysten in verschiedener Abteilungen, also besonders ein Product, wir hatten ein, zwei Analysten, einen Marketing vielleicht noch, aber das war es dann mit dem großen Data Team.

00:05:42: Von der Größe von dem Unternehmen oder vom... von der Anzahl der Mitarbeiter, war das natürlich so in Ordnung.

00:05:49: Und der Textstand war dementsprechend gut.

00:05:53: Ich muss sagen, es war kein irgendwie Prozess, der irgendwie an einem Grundjob läuft oder irgendwie Spark Streams, also so sehr rudimentäre Sachen.

00:06:07: Es waren schon einige Tools da.

00:06:09: Es war auch eine Redshift da, ein Warehouse, von den ursprünglichen Tools, die ich aufgefunden habe.

00:06:16: lebt heute noch eins.

00:06:18: Das heißt, das ist immer aufgeräumt?

00:06:21: Aufgeräumt?

00:06:24: Ja, es ist normal, das Unternehmen wurde größer, die Anforderungen wurden komplizierter und irgendwann konnten die Tools es nicht mehr lösen.

00:06:32: oder an bestimmten Stellen mussten wir einfach auch neue Tools einführen, weil es das Problem vorhin nicht gab.

00:06:37: Gut, jetzt mal ehrlich, zwölf Jahre hast du gerade gesagt, innerhalb von zwölf Jahren ändert sich die Technik schon sehr massiv.

00:06:45: da hättet ihr schon sehr viele Glücksgriffe machen müssen, um bei den gleichen Tools weiter zu bleiben, oder?

00:06:50: Ja, auch in meinen fünf Jahren würde ich jetzt schon, also nächstes Jahr würde ich schon anfangen, wieder eine Rotation reinzubringen und die Tools, die ich damals reingebracht habe, wieder analysieren.

00:07:01: Zumindest analysieren, um zu gucken, ob sie noch aktuell sind, ob sie den Newscase, ob sie die Bedürfnisse von den Stakeholders noch decken oder ob wir etwas Neues brauchen.

00:07:12: Nehmen

00:07:13: wir uns mal ein bisschen mit auf die Reise.

00:07:16: Wie sieht das technische Set-up aus?

00:07:19: Also im Sinne von, ja, ich kann mir das gar nicht vorstellen, die Hörer und Hörer vielleicht auch nicht so, was ist da überhaupt vorhanden?

00:07:26: Im Sinne, wie wird das Produkt überhaupt versorgt mit Daten und Co?

00:07:33: Also das ist ein Real-Time-Case, zwangsweise, oder das ist ein Real-Time-Case?

00:07:36: Wir haben auch, also da ist ein Mischung drin, das kann ich sehr gerne erklären.

00:07:40: Als zentraler Baustein von... Und jedem Data Team ist natürlich das Data Warehouse.

00:07:44: Zentral, wo die Daten liegen, wo man die Analysen drauf ausführt und so weiter.

00:07:51: Wir haben uns dazu entschieden, kein Lake zu haben.

00:07:54: Also wir haben so ein Art Data Lake.

00:07:56: Man kann Lake davor noch nutzen oder nicht.

00:07:59: Ein Lake, ein Data Lake ist etwas, wo man Daten in einer sehr rohen Form hinterlegt.

00:08:04: Das heißt, alle mögliche Daten, wenn man jetzt eine CSV-Datei hat, eine Excel-Datei, eine Word-Datei oder Daten, schon strukturierte Daten vorfindet, dann legt man das alles in ein Data Lake.

00:08:16: Und das bringt man dann langsam in ein Data Warehouse, wo die ganzen Daten nur strukturiert vorgefunden werden.

00:08:23: Als Data Warehouse haben wir aktuell die Snowflake.

00:08:26: Da sind wir vor kurzem komplett negiert.

00:08:29: Wir haben vor zwei Monaten, glaube ich, die Redshift abgeschaltet komplett.

00:08:34: Das waren Riesenmeilenstein.

00:08:36: Und natürlich gibt es noch darum, die ersten Tools um Daten einzubringen.

00:08:41: Dann hat man EL-Tools, also Extract and Load.

00:08:44: Das Prozess heißt Extract, Load, Transform.

00:08:47: EL-Tools, und da haben wir zwei im Einsatz.

00:08:51: Wir haben Meltano und Stitch.

00:08:54: Stitch ist ein Paid Software.

00:08:56: Die bieten vorgefertigte Konnektoren an, um Daten aus System, Drittsystem auszuholen, CRM-System, Ads-System, also Marketing, HR-System, was auch immer.

00:09:09: Und Meltano ist etwas Ähnliches, aber von der Community getrieben, wo sehr viele Community-Konnektoren da sind und man auch selber Konnektoren bauen kann, weil wenn es noch nichts gibt für bestimmte Nischen-Software, wenn man, wir nutzen zum Beispiel Billwerk, das Software für unser Billing, dafür gab es keine Konnektoren, dann haben wir eingeschrieben mit Meltano.

00:09:36: Das ist ein Weg, das nenne ich den EL-Pull-Weg, weil wir holen die Daten irgendwo her.

00:09:45: Es gibt immer noch einen zweiten Weg, wo Daten zu uns geschickt werden, aktiv.

00:09:50: Aus dem Produkt, zum Beispiel das ganze Event Tracking, da kommen ja die Daten vom Produkt zu uns.

00:09:56: Da müssen wir nur etwas liefern, wo wir die Daten annehmen können.

00:10:03: Da hatten wir sehr lange Segment.

00:10:05: für.

00:10:06: Ja.

00:10:07: Da sind wir jetzt auch letztes Jahr umgestiegen.

00:10:09: Da kann ich nachher noch was genauer drauf eingehen auf Snowplow.

00:10:13: Das ist auch self-hosted, hat viele Vorteile.

00:10:15: Größter Vorteil ist für uns natürlich die Datenhoheit und für den Kunden genauso.

00:10:20: Die Daten gehen nirgendwo aus.

00:10:23: Bleiben im eigenen Universum, ja.

00:10:24: Ja, genau.

00:10:26: Und dann auch sowas wie HDTP Request, wo wir annehmen, also Webhooks, Webhook Endpunkte, wo jemand uns Daten in irgendeiner Form schickt, die wir auch annehmen können.

00:10:39: Das sind die zwei Wege, wie die Daten ins Warehouse kommen.

00:10:42: Wir nehmen die und schmeißen die direkt RO in das Warehouse.

00:10:47: Warum RO?

00:10:48: Weil Datenspeicherung kostet heute fast nichts mehr.

00:10:52: Also es ist relativ billig gegenüber von vor fünfzig Jahren.

00:10:56: Deshalb hat sich auch das ELT geändert.

00:10:59: Vorher war es ja ETL und jetzt ist ELT.

00:11:02: Weil das Transformieren damals auf den RO-Daten direkt gemacht wurde und nur die essenziellen Daten gespeichert wurden.

00:11:10: Wie gesagt, da haben wir die Rohdaten und wir nutzen dann auf den Rohdaten DBT.

00:11:18: Mit DBT transformieren die Analysten bzw.

00:11:22: die Analytics Engineers die Daten.

00:11:24: Das ist auch ein großer Punkt.

00:11:27: Data Engineering wird in vielen Unternehmen betrachtet als komplett ETL oder ELT.

00:11:36: Nicht nur das Laden von den Daten, sondern auch das Transformieren.

00:11:39: Bei uns ist es getrennt.

00:11:41: Und zwar komplett getrennt.

00:11:42: Wir machen keine Transformation, wir wollen die Daten im Data Engineering wirklich nur roh reinbringen.

00:11:50: Darüber hinaus... Was sind Vorteile

00:11:51: hat es?

00:11:52: Der Vorteil ist, dass wir uns auch konzentrieren können, die Daten reinzubringen, die Prozesse drum herum, die Architektur, das Monitoring und die, wo die Daten dann transformieren.

00:12:05: sich dann schon näher am Business orientieren, weil die brauchen auch das Wissen vom Business, wie die Daten transformiert werden sollen.

00:12:12: Wenn jemand das komplette ELT abdecken soll, dann muss er sowohl sehr tiefes technisches Wissen haben und aber auch das Business Wissen, was bei einer bestimmten Größe von einem Unternehmen einfach nicht mehr möglich ist und wo dann die Qualität drunter leidet, meiner Meinung nach.

00:12:28: Das heißt, ihr hattet ein anderes Modell und habt dann umgestellt auf dieses, also sozusagen, Methodik kann man es ja vielleicht eher bezahlen.

00:12:35: Ja, wie gesagt, wo ich ja angefangen habe, da war quasi die Umstellung.

00:12:40: Der ehemalige Kollege, der hatte das damals alles gemacht, der hatte das Data Engineering und das Analytics Engineering gemacht, aber dann haben sie halt auch gemerkt, Technik fehlt es, aber er will den Business-Seitig schon tief drin bleiben und er kann nicht alles abdecken.

00:12:57: Und ich muss sagen, es war eine, wie sie es heute zeigt, eine sehr gute Entscheidung.

00:13:03: Ich glaube, wir haben eine sehr gute Zusammenarbeit über die drei Stellen, die wir haben im Data Circle.

00:13:10: Also wir haben Data Engineering mit den Analytics Engineers, im Data Platform, wie wir das nennen.

00:13:18: Und die dritte Stelle sind dann unsere Stakeholder, entweder die Analysten oder Data Science.

00:13:24: Und das funktioniert sehr gut.

00:13:26: Was haben wir noch am Tools drum herum?

00:13:29: Wir haben noch Orchestration, ein sehr wichtiger Bestandteil, weil man muss ja, wenn man verschiedene Tools hat, wenn man verschiedene Prozesse hat, nicht jeder Job, also wir nennen das Jobs, wenn wir die Daten irgendwo abholen, das passiert zu einem bestimmten Zeitpunkt und dann muss natürlich danach direkt etwas gemacht werden.

00:13:49: Man kann das alles zeitlich steuern oder man nutzt ein Orchestrator, da nutzen wir Dexter, ein sehr großer Anderer wäre da Airflow.

00:13:58: Wir haben uns aber bewusst dagegen entschieden, Airflow zu nutzen, weil das einfach zu groß ist.

00:14:04: Und das ist sehr, sehr hilfreich, um die Zeit zu verkürzen, um die Daten so schnell wie möglich zu haben.

00:14:12: Anstatt dann zeitlich eins nach dem anderen auszuführen, weiß der Orchestrator, der erste Job ist fertig, der erste Prozess ist fertig.

00:14:20: Ich starte direkt den nächsten und den darauf und so weiter.

00:14:23: Und er weiß, was die Abhängigkeiten sind.

00:14:24: Das heißt, Wir verhindern damit auch, dass, wenn irgendwas schiefläuft in der Pipeline, die Daten kamen nicht richtig rein oder das war ein Fehler, dann liefern wir keine falschen Daten, weil der Prozess hört auf.

00:14:41: Wenn man das so ein bisschen, ich versuch gerade zu überlegen, wenn du, und lass uns das mal erst mal noch ein bisschen abstrakt beschreiben, wenn du vor fünf Jahren das vorgefunden hast, hattet ihr weniger Tools würde ich fast behaupten und du korrigierst mich, ob es nicht so war.

00:14:58: Jetzt habt ihr mehr Tools, weil ihr für gewisses Beispiel und dann verstehst, glaube ich, wo ich hin will.

00:15:06: ELT oder ETL, wie auch immer man sozusagen das sagen

00:15:09: will,

00:15:10: kannst du am Anfang selber machen.

00:15:13: Du schreibst gegen die Quellen Coach, stellst dann fest, sobald du zehn Quellen hast Richtung Meter und Google, die ändern sich mal ein bisschen.

00:15:21: Das heißt, du musst auch Betrieb machen.

00:15:22: Dann führst du ein Tool ein, das die Arbeit abnimmt.

00:15:26: Ihr habt zwei.

00:15:28: Dann hast du ja sozusagen den Transform-Part, wo du vielleicht vorher das auch manuell gemacht hast, dann holst du dir den Tool rein.

00:15:35: Nimm uns mal auf die Reise mit, warum man das macht.

00:15:37: Also warum?

00:15:39: Du könntest ja als auch vier weitere Mitarbeiter eingestellt haben.

00:15:41: Oder Mitarbeiterin.

00:15:43: Also welcher Vorteil hat es, sein Stack eigentlich zu erweitern, sein technisches Stack?

00:15:49: Ich würde dir die Frage aus zwei Perspektiven beantworten.

00:15:52: Erstens mehrere Tools.

00:15:53: Man kann ja auch sich nur einen Tool einkaufen, was alles macht.

00:15:57: Fair, ja.

00:15:58: Da gibt es auch welche da draußen.

00:16:01: Da arbeite ich oder da ist meine persönliche Perfrenz stark dagegen, weil jedes Tool, jede Person hat eine Spezialität.

00:16:14: Wenn ein Tool in etwas sehr gut ist und versucht aber alles abzudecken, dann werden die anderen Sachen nicht so gut sein.

00:16:21: Ich komme aus dem SAP-Bereich, ich war SAP Entwickler.

00:16:24: SAP ist da das beste Beispiel.

00:16:26: SAP kam aus dem Finance-Bereich, liefert, ich glaube, weiß ich jetzt nicht mehr, ich bin seit Jahren nicht mehr drin, aber war sehr gut im Finance-ERP-Bereich und in den anderen gab es bessere, z.B.

00:16:39: Salesforce für den CRM-Bereich.

00:16:41: Und ich glaube im Data-Bereich ist es genauso, wenn nicht noch stärker, dass es für jeden Prozess, weil das so schnell wächst, weil das so neu ist, für jeden Prozess einen Spezialisten gibt.

00:16:51: Und das will ich auch ausnutzen.

00:16:53: Deshalb will ich für jeden Prozess den besten nehmen, der für uns passt.

00:16:58: Nicht den besten unbedingt auf dem Markt, aber der für, wo für unsere Use-Cases passt.

00:17:03: Dann zur Frage mehr Personen.

00:17:06: Klar, man kann auch alles selber entwickeln.

00:17:09: Da ist man... Vielleicht am Anfang auch sehr schnell.

00:17:13: Ich bin davon aber auch überzeugt, dass die Maintenance ein irgendwo einholt und dass man dann sehr schnell gebunden ist.

00:17:20: Man ist gebunden zu den Leuten, man ist gebunden zu der Technologie.

00:17:23: Wenn man irgendwas ändern will, wenn man heute Tools nutzt, kann man das, ich sag nicht leicht, das ist immer sehr viel, ein sehr großes Projekt und sehr schwierig, aber leicht her von einem Tool zum anderen wechseln als von einer Technologie, die man komplett eingebaut hat, zu einer anderen.

00:17:41: Da sind wir der gleichen Meinung.

00:17:42: Ich beschreibt es immer so, du holst dir einen, wenn wir ganz einfach sprechen in der technischen Welt und ich bin schon wahr, glaube ich, nie tief genug drin, leider, technisch, aber mir jetzt noch weniger.

00:17:55: Wenn du es so einfach beschreibst, hast du einen Tool, was die Daten zieht, du hast einen Tool, was die Daten transformiert, speichert und dann natürlich auch perspektivisch hinten visualisiert.

00:18:05: Und ich bin ein großer Freund davon, verrat ich es für die Anbieter.

00:18:10: für jedes ein anderes tool zu nehmen weil du die möglichkeit hast mit der visualisierung mit der dem anbieter zu sprechen willst du nicht was mehr in der kette haben und damit einzusteigen und es mit dem extract tool genauso wirst du es alles bei einem haben hast du die situation der kommt um die ecke und sagt er will dreißig prozent mehr saß und das thema ist durch weil die die die kosten des toolstack zu wechseln sind so riesig dass du eigentlich mitgehst.

00:18:37: Und so hast du eigentlich einen gesunden Wettbewerb, würde ich es bezeichnen, den man nutzen kann, um auch weiterhin faire Breitpreise zu haben.

00:18:46: Ja, ganz genau.

00:18:47: Also da muss ich gestehen, da bin ich von SAP gebrannt.

00:18:51: Jeder, der einmal SAP hat, kommt das ja schwierig raus.

00:18:54: und genau so, also das will ich nicht, das ist im Data Bereich besonders bei uns nicht passiert.

00:19:00: Okay, das heißt wir zusammengefasst Michel, so ein bisschen vorher war kleineres Toolstack, jetzt ist es ein größeres Toolstack, weil er auch glaube ich mit der Komplexität, mit der Datenmenge sozusagen euch verändert hat.

00:19:14: Nehmen wir uns aber nochmal ein bisschen auf die Reise mit.

00:19:16: also warum habt ihr von Redshift auf Snowflake gewechselt und dann nicht nur das warum, sondern auch diese Richtung im Sinne von wie ich finde so eine Migration statt.

00:19:28: Also als erstes für jede Migration, jede Migration beginnt ja nicht mit, wir wollen was ändern.

00:19:36: Also wenn ich sage, wir meine ich nicht Data oder Data Engineering, sondern meistens beginnt es mit, wir haben irgendwo ein Problem.

00:19:44: Und das Problem hatten wir bei den Daten, dass wir die Daten sehr spät hatten.

00:19:49: Nächlich liefen unsere Data Jobs und darunter auch DBT.

00:19:55: Und DBT hatte eine... durchschnittliche Ausführzeit von fünf Stunden.

00:20:01: Wenn ich die Daten aber irgendwie erst um drei Uhr nachts habe, dann sind die Daten erst um acht Uhr verfügbar.

00:20:08: Acht Uhr kann schon zu spät sein für einige Mitarbeiter.

00:20:10: Und es wurde immer länger, wir waren schon über acht Uhr, wir waren eher bei neun Uhr, mussten da schon Jobs zerschneiden, damit wir da reinkamen.

00:20:20: Und das war schon ein großer Punkt, wo wir dann gewerkt haben, wir müssen etwas ändern.

00:20:26: Und da hilft halt nur das, wo die Computation abläuft, also da, wo die Rechnung gemacht werden und das ist ein Data Warehouse.

00:20:33: Dann haben wir vieles versucht auf der Redshift.

00:20:36: Das erste was wir machen wollen ist natürlich skalieren.

00:20:39: Das haben wir gemacht, wir haben mit Redshift versucht zu skalieren, wir haben größere Notes gekauft, wir haben mehr Notes gekauft, noch mehr Notes gekauft und irgendwann haben wir gesagt, es lohnt sich nicht, die Skalierung ist einfach nicht, es soll sich nicht irgendwie exponentiell skalieren.

00:20:56: Also dass wir vor tausend neue Kunden irgendwie einen neuen Node von AWS dazubuchen, sondern wir wollen, dass die Skalierung natürlich linear ist.

00:21:06: Also wenn wir x Kunden haben, x Nodes dazu oder x Rechenpower mehr.

00:21:12: Und das war auch so ein Punkt, wo dann von den Stake Holdern kam, also von unseren, nicht mal Analysten, sondern von den Nutzern, dass die Daten schneller da sein müssen.

00:21:25: Bei uns intern war auch noch ein großer Mehrwert drin, weil wir haben auch gemerkt, wir kommen mit Redshift ans Limit.

00:21:34: Das sind nicht von was?

00:21:37: Von den Funktionen.

00:21:38: Also Redshift hat einen Funktionslimit.

00:21:41: Redshift hat die Daten ganz anders strukturiert.

00:21:44: Redshift hat so Features nicht, die für mich jetzt heute Gang und Gebe sind wie Variants, also Felder, die nicht typisiert sind.

00:21:54: Snowflake jetzt drin und Haus aus und es ist sehr große Hilfe auch für die anderen Tools.

00:21:59: Wir haben gemerkt, dass sehr viele Tools, die wir nutzen, eine viel bessere Verbindung oder Anbindung an Snowflake haben als an die Redshift, was für uns auch natürlich ein großes Zeichen war und dann auch den Spaß damit zu arbeiten.

00:22:13: auf weg ausprobieren und es hat sehr viel mehr Spaß gemacht.

00:22:16: Man merkt, dass Diana von der UI, von den Funktionen, das war so einer der Hauptgründe.

00:22:22: Hättet ihr das Deck, was ihr jetzt aufgebaut habt, auch wieder mit Redshift machen können?

00:22:25: Also ist es der Anbieter, der entscheidend ist oder der Aufbau?

00:22:29: Also wie du den Anbieter nutzt?

00:22:33: Ich glaube, man hätte es auch mit Redshift machen können.

00:22:36: Wir haben das natürlich auch genutzt, um unsere Struktur umzubauen, die Demigration.

00:22:41: Natürlich hilft das auch.

00:22:42: Das war auch ein großer Punkt.

00:22:43: Ich glaube aber, dass die Redshift uns stärker limitieren würde.

00:22:48: In den Funktionalitäten?

00:22:49: In den Funktionalitäten und in wie schnell wir neue Sachen rausbringen.

00:22:53: Auch jetzt für Data Science, zum Beispiel, ist natürlich die Snowflake extrem interessant.

00:22:57: Da wird euch Sebastian noch viel mehr dazu sagen, wie sehr die Brennen auf die Snowflake umzusteigen oder schon drauf sind und jetzt Sachen schneller rausbringen können.

00:23:10: Ansonsten, ja, ich glaube, Auch die Tools, die wir umdrunden nutzen können, hätten wir mehr Probleme mit Redshift.

00:23:19: Das haben wir gemerkt bei der Snowblow zum Beispiel.

00:23:22: Mit dem Tool für das Event Tracking hatten wir viel mehr Probleme mit Redshift gegenüber mit der Snowflake.

00:23:28: Ich kann da gerne auch noch.

00:23:30: Nimm uns mal auf die Reise mit.

00:23:33: Was ich mitnehmen will und was ich verstehen will und höchstens auch die Hörerinnen und Hörer.

00:23:38: Viele Unternehmen werden ein altes Data Warehouse haben.

00:23:41: Altmeinig mit vor fünf, sieben, zehn Jahren eingeführt.

00:23:45: Wie bewertig, ob das noch das Richtige ist?

00:23:47: Was sind Indizien dafür, ob es noch das Richtige ist?

00:23:50: Und wie ist der Prozess dann von Anbieter A auf B zu kommen?

00:23:54: Und wie würde ich merken, dass jetzt B besser ist?

00:23:58: Das sind sozusagen die Fragen, die ich jetzt versuche, hinzukommen.

00:24:02: Nimm und fahr ein bisschen auf die Reise mit.

00:24:03: Bei jedem.

00:24:05: Wechsel von dem tul bei vor jeder migration habe ich angefangen mit einer nutzverdanöse.

00:24:09: ich habe der extra Dateien immer noch wo ich immer sehe.

00:24:12: Ich habe angefangen was sind die tuls die die star draußen gibt auf dem markt?

00:24:16: was sind die kriterien die das tul absolut erfüllen muss also die must haves.

00:24:22: Dann haben wir schon eine erste selektion gemacht.

00:24:24: die tuls die die must haves nicht erfüllen fliegen raus beispielsweise Verfügbarkeit bei Snowfall, also beim Warehouse, was waren da Must-Haves?

00:24:33: Security war ein großer Must-Have, dass wir da Rollen richtig einstellen können, Data Masking einstellen können.

00:24:40: Das waren so Must-Haves.

00:24:42: Und dann ist es immer am zweiten Schritt, haben wir die Nice-To-Haves, also die Kriterien, nach denen wir schlussendlich bewerten wollen, aufgelistet.

00:24:51: Dann haben wir diese einzelnen Kriterien bewertet.

00:24:54: Da kommt rein Performance, Community, Dokumentation.

00:24:58: ML Funktionen oder Typen, die das Warehouse supportet oder Integration, also da haben wir sehr viele Kriterien aufgestellt und die Kriterien bewertet bzw.

00:25:08: gewichtet.

00:25:08: Preis war natürlich von uns sehr wichtig.

00:25:10: Wenn das extrem teuer ist, ist es cool, dann können wir es uns nicht leisten.

00:25:15: Deshalb hatte Preis, glaube ich, eine Gewichtung von null bis zehn und neun.

00:25:20: Performance hatte aber auch eine Acht, weil uns war es sehr wichtig, dass die Performance besser wird.

00:25:25: Ein sehr gut liegendem Problem hast du ja gerade beschrieben.

00:25:28: Genau.

00:25:29: Und dann haben wir die einzelnen Tools bewertet mit Recherche.

00:25:33: Da geht man in Reddit-Forumrunden.

00:25:36: Da geht man über... Ja, da geht man wirklich nicht nur Stack Overflow, sondern Reddit, spezielle Data-Forum, auch Podcasts, wo man andere Sachen hört und sieht.

00:25:49: Und dann nimmt man alles zusammen, setzt sich mit dem Team zusammen, bewertet die einzelnen Tools.

00:25:54: Wie lange

00:25:55: geht es so eine Phase?

00:25:56: Wir haben das über drei Monate gemacht.

00:25:59: Das bewertet, aber wir haben uns nicht eingeschlossen in den Raum, sondern wir haben das nebenbei gemacht.

00:26:05: Das war ja die erste Phase.

00:26:06: Dann kam Redshift als Siegerhaus.

00:26:09: Es waren noch andere, Bacree natürlich, zum Beispiel dabei.

00:26:12: Und dann haben wir den Gewinner genommen und haben gesagt, wir gehen nach POC.

00:26:19: POC, Proof of Concept.

00:26:21: Unser Konzept war ja, ist er für diese Kriterien.

00:26:25: Dann wollten wir das prüfen.

00:26:27: Wenn das nicht der Fall wäre, wären wir mit dem zweiten ins Rennen gegangen und hätten da auch ein POC gemacht.

00:26:33: POC haben wir dann angesetzt von insgesamt nochmal drei Monaten.

00:26:37: Nicht komplett nur POC von drei Monaten, sondern da gehört auch noch eine Planungsphase rein.

00:26:41: Was wollen wir überhaupt testen?

00:26:43: Wie genau wollen wir es testen?

00:26:45: Dann haben wir halt... verschiedene Tools angebunden, die wir haben, verschiedene Integration, getestet, wie viel das kostet, wie schnell das geht.

00:26:53: Und Business Beispiel ist Snowblow.

00:26:56: Ich habe das angeschlossen.

00:26:57: Erstens ging es sehr einfach.

00:27:00: Wir haben es mit Terraform deployed Snowblow und in den Ahalb von fünfzehn Minuten war das angebunden.

00:27:06: Und anstatt zehn Minuten Turnover von neuer Daten kommen ins Warehouse rein, sind wir jetzt subsekunde.

00:27:14: Also wir sehen jetzt unter einer Sekunde, um neue Eventdaten im Warehouse zu haben.

00:27:19: Bin ich kurz irritiert, weil du vorhin gesagt hast, als Insider kam Redshift raus.

00:27:22: Du meinst, als Sieger kam Snowflake

00:27:24: raus?

00:27:24: Ja, sorry.

00:27:25: Als Sieger kam Snowflake raus.

00:27:28: Redshift war aber auch im Rennen natürlich.

00:27:29: Wir haben in jeder Bewertung, war das ursprüngliche Tool natürlich auch in der Bewertung drin, um zu gucken, wie steht es gegen die anderen.

00:27:38: Snowflake haben wir dann getestet.

00:27:39: Ja.

00:27:40: Und hat dann sozusagen das gehalten, was es versprochen hat.

00:27:44: Ja, ich muss sagen, ich war sehr überzeugt auch nach dem POC.

00:27:48: Wir hatten in dem kompletten Projekt, das ging dann länger als erwartet, Migration.

00:27:53: Aber das lag nicht an Snowflake, das lag an uns und DBT.

00:27:58: Wir haben den DBT-Partner natürlich unterschätzt.

00:28:00: Wir hätten ihn auch anders angehen können und sollen nach hinein.

00:28:05: Nimm nochmal kurz die Hörerinnen mit, für was ihr DBT einsetzt.

00:28:10: DBT

00:28:10: ist um die Daten zu transformieren, das heißt, wir haben ja die ganzen Rohdaten.

00:28:14: Und wenn wir daraus, stellen daraus Modelle, zum Beispiel aus verschiedenen Quellen, haben wir Daten zu einem Kunden.

00:28:21: Wir haben aus unserem Produkt Daten zu einem Kunden.

00:28:23: Wir haben aber auch aus den einzelnen Events Daten zu dem Kunden.

00:28:28: oder wir haben von Google Daten zu dem Kunden.

00:28:32: Und das wollen wir alles in einem Modell vereinen.

00:28:35: Und dafür nutzt man so tools wie DBT.

00:28:43: Den Teil haben wir komplett unterschätzt.

00:28:45: Wir haben über sechshundert Modelle insgesamt im Stack.

00:28:49: Das ging dann zu lange.

00:28:51: Es ging aber auch zu lange, weil wir sehr, sehr hohen Wertaufqualität gesetzt haben.

00:28:57: Und ich muss sagen, da bin ich auch sehr stolz, weil das haben wir auch am Ende geliefert, was die Qualität angeht.

00:29:03: Weil die Endanwender, also unsere internen Kunden, Finance, HR, was auch immer, die hatten keinen Datenverlust, die haben keinen Unterschied in den Dashboards gemerkt.

00:29:15: Es war schneller.

00:29:16: Es war schneller.

00:29:17: Die Dashboards waren schneller.

00:29:19: Aber sie hatten ihre Daten noch eins zu eins.

00:29:21: Eins zu eins im Sinne von die gleiche Qualität.

00:29:24: Genau.

00:29:24: Ja.

00:29:25: Und da muss ich sagen, ich glaube, das ist ein Riesenpunkt.

00:29:28: Da hätten wir in dem Projekt sehr oft eine andere Entscheidung treffen können, wo wir auch Fehler bemerkt haben.

00:29:34: Natürlich, wenn man emigriert und so alte Sachen anfässt, dann merkt man auch, man hat da vielleicht was falsch gemacht.

00:29:40: Wir haben natürlich auch Sachen emigriert im ersten Schritt.

00:29:44: Mit dem Fehler.

00:29:45: Wissen aber jetzt, okay, da müssen wir jetzt im Nachhinein korrigieren.

00:29:48: Weil wenn man etwas korrigiert während der Migration und der Kunde plötzlich andere Daten hat, dann denkt er, es ist falsch oder es war vorher falsch.

00:29:57: Ja, war es, aber es liegt nicht an der Migration, sondern an etwas anderem.

00:30:02: Da gab es viele Beispiele.

00:30:03: Ich glaube der größte.

00:30:05: Wenn ihr

00:30:05: danach sozusagen nochmal mehr optimiert habt, weil ihr euch mit dem Kern beschäftigt habt.

00:30:09: Verstanden?

00:30:10: Was ja im Alltag untergeht.

00:30:12: Genau.

00:30:14: Das heißt, zusammengefasst war Bewertung auf unterschiedlichen Kriterien.

00:30:18: Die Bewertung oder Gewichtung der Kriterien war ja oder ist pro Unternehmen unterschiedlich.

00:30:22: Die muss man, glaube ich, auf Basis der Gespräche mit den Stake Holdern und auf Basis seiner eigenen Erfahrung festmachen.

00:30:28: Dann dazu kommt, dass man dann natürlich viel von den Anbietern versprochen bekommt, ohne jetzt böse sein zu wollen.

00:30:36: Und es wurde dann getestet.

00:30:37: Es hat sich belegt.

00:30:38: Und dann war natürlich der Schritt, die Migration selber zu vollziehen.

00:30:43: War das dann stepweise oder war es so ein Big Bang?

00:30:46: Initial, also man muss unterscheiden, für uns intern war das stepweise.

00:30:52: Für den Dashboards quasi war das Big Bang, weil wir wollten ganz am Ende die Dashboards einmal umstellen.

00:31:00: Und nicht einen Dashboard nach dem anderen, sondern quasi für die internen Kunden, für die internen Nutzer der Dashboards Big Bang.

00:31:08: bei uns intern step by step.

00:31:09: Wir haben Iterationen gemacht, also das war ein sehr, sehr positiver Aspekt im Projekt, der aber sehr lange gedauert hat.

00:31:17: Iterationen über wir verändern unseren Code, unseren DBT Code, damit das für Snowflake passt und dann testen wir die Daten.

00:31:28: Und das haben wir dreimal literiert.

00:31:30: Und jedes Mal geguckt, passen die Daten noch, stimmt es noch und funktioniert der Code.

00:31:36: Man spricht ja Michelle mir so sehr vom The Modern Data Stack.

00:31:39: Das Begriff ist aber jetzt schon für wahrscheinlich drei, vier, fünf Jahre da.

00:31:42: Was verstehst du darunter und hat sich das nochmal irgendwie geändert?

00:31:48: Also erst mal was verstehe ich darunter.

00:31:50: Für mich ist es, was wir vorhin besprochen haben, eine Ansammlung an Tools.

00:31:54: Das ist nicht ein großes Tool.

00:31:57: Es ist ein Stack von Tools, die zusammenarbeiten und die verschiedene Bereiche abdecken.

00:32:02: Data Ingestion, wie auch immer man was macht.

00:32:05: Das habe ich vorhin gesagt, das Pool Push, zwei Streams.

00:32:08: Das Data Warehouse, Transformation, BI, Reverse ELT und Orchestration.

00:32:15: Das sind für mich die Bestandteile von einem modernen Data Stack.

00:32:20: Ist es heute noch richtig?

00:32:22: Ich glaube, für viele Unternehmen ja.

00:32:24: Viele Unternehmen sind noch nicht bei dem.

00:32:27: Für uns, für Sethdesk, nicht mehr.

00:32:33: Ich will, dass wir auf den nächsten Step kommen, was für mich Data Platform ist, oder Data Platform, warum Platform?

00:32:40: Weil wir hatten bis jetzt und haben immer noch jetzt ein Stack.

00:32:44: Der Stack ist gut.

00:32:45: Man will aber immer mehr zu dem Self-Service kommen.

00:32:50: Man redet oft von Self-Service für die Analysten, für die Leute, die Dashboards nutzen, damit die ihre Dashboards selber machen können.

00:32:59: Für mich geht Self-Service aber noch weiter.

00:33:01: Und die Plattform muss halt unten auch da sein.

00:33:06: Und es fängt bei Data Engineering an.

00:33:08: Wir müssen eine Plattform für die Analytics Engineers bauen, verfügbar machen, damit die eigenständig arbeiten können, damit die uns nicht mehr brauchen.

00:33:18: Ich sage immer sehr gerne, mein Ziel ist es, dass man mich oder dass man Data Engineering nicht mehr braucht.

00:33:24: Man will es immer brauchen, aber dass man Data Engineering nicht mehr aktiv braucht.

00:33:28: Immer irgendwas fragen muss, sondern man hat diesen... Daten, man hat das, was man will, zur Verfügung und nutzt es einfach.

00:33:35: Da ist jemand im Hintergrund, der das macht, aber man braucht die Personen nicht direkt Anfragen.

00:33:42: Das zieht sich durch den ganzen Data Circle bei uns, also doch die verschiedenen Schichten in Data bis zu dem der Sport-User, deshalb Plattformen.

00:33:52: Ja, verstanden.

00:33:53: Das heißt, auch in der Technik gibt es mehr Reife, um Self-Service zu etablieren.

00:33:59: Das ist so ein bisschen der Schwenkrichtung, Low-Code, No-Code, viel mehr den Anwendern was zur Verfügung stellen.

00:34:08: Oder das so einfach bauern, dass der Anwender das nutzen kann.

00:34:11: Das

00:34:12: mitzudenken.

00:34:15: Wenn man sieht heute, wie viele Tools es da draußen gibt, es ist der Markt, das überschwemmt mit Data Tools.

00:34:23: Wenn man das verfolgt seit dem Jahr zwei Tausend Neunzehn, es gibt aber immer welche, die herausstechen, die besser sind als andere.

00:34:32: Der Auswahl ist nicht leicht und ich würde nicht sagen, dass meine Wahl heute noch richtig ist für die Tools, die ich damals genommen habe.

00:34:42: Ja,

00:34:43: fairer Punkt.

00:34:44: Ja, und mit den ganzen technischen Änderungen, also wir haben über die ganzen Tools gesprochen, mit dem Unternehmen, was wächst, von wo ich angefangen habe, knapp über hundert, zu mehr als zweihundert Mitarbeitern wächst natürlich auch die Organisation, die anderen Teams drum herum und da muss man sich auch anpassen.

00:34:59: Wir müssen auch mit denen zusammenarbeiten.

00:35:01: Wir arbeiten sehr stark mit der Cloud Crew zusammen.

00:35:04: Wir haben einen internen Cloud Crew.

00:35:07: Das ist das Plattformteam, was uns quasi AWS bereitstellt.

00:35:13: Wir arbeiten sehr eigenständig, Data Engineering auf AWS.

00:35:18: Wir haben aber trotzdem den Counterboard von Cloud Crew, die uns helfen, das aufzubauen, falls wir da Hilfe benötigen.

00:35:24: Ja, auf dem sozusagen es nur wegläuft.

00:35:27: Auf dem auch Snowflake läuft.

00:35:28: Snowflake haben wir auf der AWS, aber auch sehr viele andere Services wie Kubernetes.

00:35:33: Und die ganzen Tools haben wir, viele Tools haben wir selber gehostet, sei es Snowplow, sei es Metano oder Dexter.

00:35:41: Metabase sogar ein unserer BI-Tools haben wir selber gehostet.

00:35:45: Warum?

00:35:46: Weil Daten auch ein sehr kritisches Thema ist.

00:35:51: Man will nicht, dass Daten überall sind.

00:35:53: Wir haben das Thema schon von Anfang an sehr ernst genommen.

00:35:57: Züglich Datenhoheit und wohin die Daten fließen.

00:36:00: Viele Unternehmen im Data-Bereich sind US-Unternehmen.

00:36:04: Das muss man auch darauf achten, wohin die Daten fließen.

00:36:07: Deshalb haben wir zum Beispiel den Wechsel von Segment zu Snowblow gemacht, weil die haben auch das First Party Cookie Tracking.

00:36:14: Das heißt, wir haben den kompletten Prozess in unserer Hand.

00:36:17: Das Schwierige bei den ganzen Projekten wurde dann aber auch die Zusammenarbeit mit... Engineering oder Cloud Crew.

00:36:25: Cloud Crew war immer sehr näher, das hat immer funktioniert, weil da auch eine persönliche Connection ist.

00:36:29: Ja,

00:36:30: kann auch ein Gen sein.

00:36:31: Ja,

00:36:32: muss ich sagen, das ist heute sehr entscheidend immer noch bei vielen Themen.

00:36:36: Aber Engineering hatte halt andere Prioritäten, die hatten anderen Druck, neue Features im Tool rauszubringen, das Tool auf dem nächsten Level zu bringen, die hatten über den Jahr sehr viel Entwicklung.

00:36:49: Und da hatten wir auch unsere größte Challenge mit bei der... Migration von unserem Event-Tracking-Tool.

00:36:56: Wir sind von Segment weg zu Snowblow.

00:37:01: Und man muss sich vorstellen, so ein Event-Tracking-Tool ist wie so ein Monster, was seine Krallen überall im Produkt drin hat.

00:37:10: Weil überall kommen Events her.

00:37:13: Jeder will, und es ist auch richtig, jeder im Produkt will wissen, wird mein Button überhaupt benutzt, wird das Feature überhaupt benutzt wie oft und so weiter und so fort.

00:37:22: Also das sind sehr viele Fragen, sehr viele Events.

00:37:24: Und da kann man nicht einfach zu Engineering hingehen und sagen, wir möchten morgen unser Eventur wechseln.

00:37:30: Könnt ihr bitte einmal unseren ganzen Code umstellen?

00:37:33: Natürlich ist es auch nicht überall, sondern es gibt zentrale Module, wo das genutzt wird.

00:37:38: Aber da muss man dann flexibel sein.

00:37:43: Wir mussten uns Umwege erarbeiten, erdenken.

00:37:47: Wir haben mit dem Plattformteam, also heute ist es sehr gut, Zwischendösung, ich sag wirklich Zwischendösung, ich sag das jedes mal, weil ich will nicht, dass das eine langfristige Lösung wird.

00:37:56: In der Zwischendösung erarbeitet und zwar wir haben so ein zentrales Event Hub gebaut, weil Engineering hat die Segment Events abgefeuert in einem bestimmten Format.

00:38:10: Und mit einem bestimmten Framework, das von Segment.

00:38:16: Und wir sind hintergegangen, haben gesagt, okay, ihr nutzt das, genau wie es ist.

00:38:21: Wir wollen euch so wenig Arbeit wie möglich machen, aber ihr feuert das jetzt nicht mehr zu Segment, sondern zu einer internen URL.

00:38:30: Und die internen URL nimmt die ganzen Events an, ändert die von der Struktur, damit sie zu dem neuen Event-Tool passen und feuert die dann zu unserem neuen Event-Tool ab.

00:38:41: Es ist ein Zwischenschritt,

00:38:44: dass ihr im Hintergrund schon die Basis fürs neue Tool bauen könnt, wie die Daten entgegengenommen werden und ihr immer mehr

00:38:49: genau dem...

00:38:50: mit dem neuen Tool sozusagen ins Produkt reinwachsen könnt.

00:38:53: Genau, weil man muss da mit dem Produkt, man muss mit den anderen Bereichen der Sicht nehmen.

00:38:58: Auf beiden Seiten haben die Analysten müssen mit Produkt oder mit der ganzen Kompanie zusammenarbeiten und wir auch, man sagt immer, Data Engineering ist so an der untersten Schicht, so im Camerline, ja, aber bei so wichtigen Sachen wie Daten holen, müssen wir mit allen Teams zusammenarbeiten.

00:39:16: Und das ist ein sehr wichtiger Punkt, wo man dann auch politisch und strategisch mit den einzelnen Abteilungen zusammenarbeiten muss.

00:39:27: Und es klappt gut.

00:39:29: Es klappt sehr gut, muss ich sagen.

00:39:31: Es hilft, wie gesagt, auch, dass ich schon fünf Jahre dabei bin, dass ich die Leute kenne.

00:39:38: Ich weiß, wen ich anschreiben muss, damit ich schnell eine Antwort kriege.

00:39:42: Das hilft.

00:39:43: Aber ich glaube, das gehört einfach auch dazu.

00:39:45: Dafür kriegen die auch schneller.

00:39:48: Fetter und Wirtschaft sind ja auf dem Basis

00:39:49: gerade.

00:39:51: Jetzt haben wir viel über aktuellen Status Vergangenheit gesprochen.

00:39:55: Was glaubst du, was in zwei Jahren passiert bei euch?

00:39:58: Ich glaube, dass der Plattformgedanke, den ich meinte, schneller kommen kann.

00:40:06: Ich sage nicht muss, aber doch das ganze natürlich Hype-Thema, aber es ist nicht nur ein Hype-Thema, es ist auch wirklich das ganze AI-LLM-Thema, wird auch unsere Arbeit eventuell leichter.

00:40:20: Ich sage nicht, dass hier setzt wird und ich glaube nicht, dass die Sachen viele Stellen ersetzt werden, sondern die Arbeit wird leichter gemacht, dass man einfach schneller Sachen reinbringen kann.

00:40:30: Ich liebe Eugel schon mit Tools wie zum Beispiel DLT Hub.

00:40:34: Das ist ein Tool, um auch Daten in Gestion zu machen.

00:40:39: Die arbeiten auch mit einem LM zusammen oder da ist ein Feature mit LM, wo man dann sehr schnell so eine Datenanbindung aufbauen kann.

00:40:47: Das will ich in den nächsten Wochen, Monaten testen.

00:40:51: Und vielleicht, wer weiß, das auch umstellen, nicht direkt.

00:40:55: Umstellungsthemen, Umstellungsprojekte hatten wir jetzt genug.

00:40:59: Aber so was, glaubt ihr, das Data Warehouse wird noch zentraler, noch wichtiger Snowflake, wie es ist, weil ich es sehr, sehr gut finde.

00:41:09: Ansonsten wird nur die Datenmenge noch viel, viel größer.

00:41:13: Ja,

00:41:13: wenn ihr weiter wechselt.

00:41:15: Nicht nur weiter wechseln, auch wachsen auch von der... Die Tiefe.

00:41:18: von der Tiefhund, von der Maturity.

00:41:20: Viele Leute merken, oh, Daten sind wichtig.

00:41:22: Auch durch das AI-Thema.

00:41:25: Und merken, wie wichtig das sein kann und wie sehr das helfen kann.

00:41:29: Dadurch steigt da Datenwert auch.

00:41:33: Die zwei Fragen, die ich hier im Gast stelle.

00:41:37: Beschäftigst du dich noch in Straßburg mit Daten?

00:41:41: Und welchen Filmtitel würdest du sozusagen der Folge geben?

00:41:47: Ja, ein weniger.

00:41:48: Ich war lange Zeit bei der freiwilligen Feuerwehr.

00:41:51: Da habe ich auch einige Sachen aufgebaut, freiwillige Projekte und da hatte ich auch mehrere Versuche mit Daten, was zusammenbauen, auch vorherzusagen, wann der nächste Einsatz kommt.

00:42:02: Das ist aber schön unmöglich.

00:42:05: Und privat hatte ich auch ein Food-Unternehmen mit einem Kumpel gemacht, ist immer noch.

00:42:13: Da hatte ich auch... verschiedene Tests, um mit Daten vorherzusehen, wie viel brauchen wir für das nächste Event, wie viele Portionen und so weiter, aber das ist sehr schwierig.

00:42:24: Mittlerweile weniger, mittlerweile nutze ich Daten mehr, bei Paddle zum Beispiel, da gibt es mittlerweile Kameras, die analysieren und das ist sehr interessant, das heißt ich sehe das täglich noch in meiner Freizeit und merke es aktiv, aber weniger.

00:42:38: Zum Filmtitel, ich würde den Filmtitel nahezu dem zu stellen, was ich vorhin gesagt habe über meine eigene Rolle und wie ich mich sehe, dass ich will, dass die Leute unabhängig sind.

00:42:53: Und das merkt man, glaube ich, als Data Engineer stark, dass man immer im Hintergrund ist.

00:42:58: Deshalb würde ich dem einen Titel geben, so im Schatten der anderen.

00:43:02: Okay, cool.

00:43:04: Fast philosophisch.

00:43:07: Wir arbeiten im Schatten, aber es macht auch sehr, sehr viel Spaß.

00:43:10: Okay.

00:43:11: Vielen, vielen Dank

00:43:11: für die Folge.

00:43:12: Vielen lieben Dank dir für die Einladung.

00:43:13: Das war's.

Shownotes

Transkript anzeigen

Neuer Kommentar