Was wir von Mona Lisa, Fabergé Eiern und Ocean's Twelve lernen können

| Redaktion 
| 30.01.2023

Gastkommentar von Ingrid Kriegl, Gründerin & Geschäftsführerin von der Sphinx IT-Consulting GmbH.

Da Vincis berühmte Mona Lisa hängt im Louvre in Paris, gut bewacht und hinter dreifachem Panzerglas. Doch die schöne Dame war vor einigen Jahren auch schon zu Besuch in Wien – natürlich nur eine Kopie, das Original ist viel zu wertvoll zum Verreisen.

Im Natural History Museum in London kann man den Kooh-i-Noor Diamanten bewundern, während das Original im Tower of London sicher verwahrt ist. Michelangelo's großartigen David gibt es alleine in Florenz dreimal. Soviel sei verraten, der auf der Piazza della Signoria ist nicht der Echte.

In der Kunstwelt hat sich die Methode gut bewährt

Einen echten Rembrandt stellt man nicht auf dem Marktplatz aus – für den Hausgebrauch tun es auch Repliken. Dieses grundsätzliche Prinzip kann und soll (!) man auch auf wertvolle Datenbestände anwenden.

Die Presse ist voll von Berichten über "gestohlene" Daten, mit den schmerzhaften wirtschaftlichen Folgen für Unternehmen und der Beschädigung ihres Rufs. Das muss nicht sein! Auch die Kompromittierung der Privatsphäre von Millionen von Privatpersonen könnte oft vermieden werden.
Produktiv genutzte sensible Daten werden zum Glück in den allermeisten Unternehmen gut abgesichert und die Sicherheitsmaßnahmen strikt eingehalten. Trotzdem finden sich die gleichen Daten immer wieder frei zugänglich am Internet.

Wie kann das sein?

Die Antwort ist einfach: Daten werden nicht nur für das produktive Tagesgeschäft in ERP, CRM, Warenwirtschaft oder sonstigen Lösungen gebraucht. Man benötigt auch Testdaten – für Erstellung von Programmen, Testen von Software oder zum Trainieren von AI Modellen. Eine Kopie der Echt-Daten zu verwenden ist einfach und auf den ersten Blick kostengünstig – daher für alle Beteiligten eine sehr verlockende Option.

Anders als Kunst-Repliken sind kopierte Daten gleich wertvoll wie Originale. Es macht sich daher bezahlt, wenn die Awareness für die Gefahren geschärft und in den Unternehmen bessere Praktiken für den ganzen Bereich der Test-Daten implementiert werden. Die gute Nachricht ist: Daten kann man bewusst "wertlos" machen, zum Beispiel durch Anonymisieren oder andere bewährte Verfahren.
Dann ist es kein Problem, wenn Test-Daten auf Datensticks gespeichert, per Mail herumgeschickt, über ungesicherte Dropboxen ausgetauscht werden, oder wenn sie "irrtümlich" auf Servern landen, die für jedermann da draußen frei zugänglich sind.

Der Ocean's Twelve Effekt

Für die allermeisten Anwendungsfälle rund um das Testen oder zum Trainieren von AI Modellen sind auch anonymisierte oder künstlich erzeugte Test-Daten gut geeignet.
Doch was ist mit dem Hacker, der diese Daten erbeutet? Der Hacker würde den "Ocean's Twelve Effekt" erleben: Das mühsam gestohlene Fabergé Ei ist eine Fälschung und somit wertlos. Im Ocean's Twelve Film sind die Einbrecher:innen zwar ausnahmsweise die Guten und gewinnen am Ende trotzdem, aber das ist eine andere Geschichte.

FAQ:

Wie funktioniert ordentliches Testen?
Für möglichst alle Fälle, die in einer Softwarelösung auftreten können, wird ein Testfall programmiert und dafür gleich festgelegt, welches Ergebnis die Lösung in diesem Fall berechnen oder zurückliefen muss.
Immer wenn die Software geändert wird, muss sie alle Testfälle automatisiert durchlaufen (=Regressionstest). Erst wenn bei jedem Testfall das richtige Ergebnis herauskommt, kann die neue Version in Betrieb gehen. Ansonsten werden die Fehler korrigiert und der Regressionstest wiederholt – bis alles passt.

Wenn das so gefährlich ist, warum wird immer noch mit Echtdaten getestet?
Dafür gibt es zwei Gründe:

  • Die Leute in der IT sind es so gewohnt und es ist im Handling einfacher. Sie fordern daher die erforderliche Investition für sicheres Testen von ihrem Management nicht ein.
  • Dem Management sind die Risiken nicht bewusst. Sie wähnen ihre Daten in "Fort Knox", was für die Produktivdaten meist auch stimmt. Testdaten unterliegen den strengen Security-Regeln der Produktion aber nicht. So sieht das Management nur die Kosten von Anonymisierung, Regression Testing & Co.

Was kann man stattdessen tun, um Testdaten sicher zu machen?
Echte Daten "wertlos machen":
Durch Anonymisierung von Daten werden heikle Informationen wie Namen, Gehälter, Rezepturen, Angebotspreise usw. so verändert, dass es unmöglich ist, auf die ursprünglichen Daten zurückzuschließen.

Synthetische Daten verwenden:
Heute kann man Bilder von Menschen erzeugen, die völlig echt aussehen, die es aber nicht gibt (zum selbst ausprobieren z.B.: www.thispersondoesnotexist.com).

Genauso funktioniert es auch mit Daten. Sie werden automatisch so erzeugt, dass sie den echten Daten in Inhalt und Struktur gleichen, aber dennoch frei erfunden sind. Das ist nicht trivial. Einige Tools, die synthetische Testdaten generieren, nutzen daher künstliche Intelligenz (KI) Technologien wie maschinelles Lernen, um synthetische Daten zu erzeugen, die möglichst realistisch sind.
Diese Tools trainieren ein KI-Modell anhand von echten Daten, um dann synthetische Daten zu generieren, die den Eigenschaften und Verteilungen der Ausgangsdaten ähneln. Diese synthetischen Daten können dann verwendet werden, um Systeme und Anwendungen zu testen, ohne dass echte oder sensible Daten verwendet werden müssen.

www.sphinx.at


Kommentare auf LEADERSNET geben stets ausschließlich die Meinung des jeweiligen Autors bzw. der jeweiligen Autorin wieder, nicht die der gesamten Redaktion. Im Sinne der Pluralität versuchen wir unterschiedlichen Standpunkten Raum zu geben – nur so kann eine konstruktive Diskussion entstehen. Kommentare können einseitig, polemisch und bissig sein, sie erheben jedoch nicht den Anspruch auf Objektivität.

Kommentar veröffentlichen

* Pflichtfelder.

leadersnet.TV