3 Minuten zum Lesen

Strukturierte Daten entscheiden oft darüber, ob Forschungsergebnisse nutzbar bleiben oder sich im Laufe der Zeit in unbrauchbares Rauschen verwandeln. In diesem Beitrag erkläre ich (mehr oder weniger offiziell, zumindest im Geiste) den Juli zum Monat der strukturierten Daten, denn dieses Thema verdient weitaus mehr Aufmerksamkeit, als ihm in der täglichen Praxis normalerweise zuteilwird.

Wenn gut strukturierte Dateien dennoch unbrauchbar sind

Stell dir eine Messdatei vor, die eine Matrix aus Zahlen enthält. Die Datei selbst mag zwar übersichtlich gestaltet sein, steht jedoch isoliert. Die Informationen zu Zeilen und Spalten befinden sich an anderer Stelle, die Versuchsgruppen sind nicht verknüpft, Angaben zum Versuchsdesign und zu den Chargen fehlen, die Verarbeitungsschritte sind unklar, und niemand weiß auf Anhieb, wo die Rohdaten gespeichert sind oder an wen man sich wenden soll.

Dies ist ein wichtiger Unterschied: Strukturelle Formatierung ist nicht dasselbe wie strukturelle Bedeutung. Eine Zahlenmatrix ohne Metadaten, also ohne klare Informationen darüber, was die Zeilen darstellen, was die Spalten messen und wie die Versuchsbedingungen aussahen, kann leicht zu Dark Data werden: Daten, die zwar existieren, aber schwer oder gar nicht zu finden, zu verstehen, abzurufen oder wiederzuverwenden sind. Eine Datei kann übersichtlich formatiert sein und dennoch wissenschaftlich mehrdeutig sein. Damit Daten wirklich wiederverwendbar werden, müssen die relevanten Informationen gemeinsam strukturiert werden, und die Menschen müssen wissen, dass dieser Datensatz existiert. Das ist es, was strukturierte Daten in einer modernen, datengesteuerten Organisation tatsächlich bedeuten.

Von Dateien zu Wissen: Was strukturierte Daten eigentlich bedeuten

Strukturierte Daten sind wichtig, weil sie isolierte Dateien in wiederverwendbares Wissen verwandeln. Sind Daten gut beschrieben, auffindbar, zugänglich und mit ihrem Kontext verknüpft, können wir bessere Fragen stellen. Wir können Experimente vergleichen, Datensätze integrieren, Muster erkennen, Analysen reproduzieren und neue Hypothesen aufstellen. Dies ist auch die Logik hinter den FAIR-Prinzipien, die besagen, dass wissenschaftliche Daten auffindbar, zugänglich, interoperabel und wiederverwendbar sein sollten, wobei ein besonderer Schwerpunkt darauf liegt, Daten nicht nur für Menschen, sondern auch für Maschinen nutzbar zu machen.

Die Realität in der Organisation: Jeder kocht seine eigene Suppe

In Unternehmen, darunter auch in der Pharmabranche und in der betrieblichen Forschung und Entwicklung, ist dies besonders relevant. Daten werden oft in verschiedenen Abteilungen, für unterschiedliche Projekte und mit unterschiedlichen Tools, Namenskonventionen, Speicherorten und Zugriffsregeln generiert. Zudem gibt es häufig nur begrenzte Anreize, Daten für Personen außerhalb des Teams, das sie ursprünglich erstellt hat, wiederverwendbar zu machen. Jedes Team “kocht möglicherweise seine eigene Suppe”. Ein Team erstellt vielleicht eine Tabellenkalkulation, die für seine wöchentliche Besprechung perfekt funktioniert. Lokal mag dies effizient sein. Fehlen der Tabelle jedoch standardisierte Schemata, gemeinsame Identifikatoren oder zentralisierte Metadaten, kann sie für einen Datenwissenschaftler drei Büros weiter, der versucht, ein Vorhersagemodell zu trainieren, völlig unsichtbar und nutzlos sein. Dies ist die klassische Falle der lokalen Optimierung und globalen Suboptimierung: Etwas funktioniert gut für ein Team, schränkt jedoch den Nutzen für das gesamte Unternehmen ein.

Wenn niemand weiß, dass ein Datensatz existiert, wo er gespeichert ist, was er enthält oder an wen man sich wenden kann, können die Daten nicht ohne Weiteres zu neuen Analysen, neuen Entscheidungen oder neuen Erkenntnissen beitragen.

Warum dies fĂĽr KI und maschinelles Lernen von Bedeutung ist

Dies schafft zudem eine direkte Verbindung zu KI und maschinellem Lernen. KI-Systeme sind nicht allein deshalb nützlich, weil das Modell groß ist. Sie sind dann nützlich, wenn die Daten, aus denen sie lernen, die sie abrufen oder über die sie Schlussfolgerungen ziehen, von hoher Qualität, gut dokumentiert und zweckmäßig sind. Im maschinellen Lernen können Datenprobleme sich durch das gesamte System ausbreiten und Fehler verursachen, die später nur schwer zu erkennen sind (Sambasivan 2021). Die “Datenarbeit” mag weniger glamourös sein als die Modellentwicklung, ist jedoch oft der entscheidende Schritt.

Wenn beispielsweise ein KI-Assistent für Retrieval-Augmented Generation (RAG) eingesetzt wird, um Wissenschaftlern dabei zu helfen, frühere experimentelle Erkenntnisse wiederzufinden, kann er nicht auf der Grundlage einer isolierten Tabellenkalkulation Schlussfolgerungen ziehen. Er benötigt die Metadaten, die die Daten umgeben: Beispielmetadaten, Definitionen von Variablen, Verweise auf Protokolle, Informationen zur Datenqualität und im Idealfall eine dokumentierte Historie darüber, wie die Daten verarbeitet wurden. Wenn wir KI-Systeme trainieren, feinabstimmen oder Daten aus ihnen abrufen wollen, können doppelte, inkonsistente, verzerrte, falsch beschriftete oder schlecht dokumentierte Daten die Leistung und Zuverlässigkeit direkt beeinträchtigen. Untersuchungen zu Trainingsdaten für Sprachmodelle haben gezeigt, dass die Deduplizierung auswendig gelernte Ausgaben reduzieren und das Modellverhalten verbessern kann – ein praktischer Hinweis darauf, dass die Datenaufbereitung kein administratives Detail ist, sondern Teil der Modellqualität selbst (Lee 2022).

Fazit

Strukturierte Daten sind kein Implementierungsdetail, sondern eine Voraussetzung für die Wiederverwendbarkeit. Ohne einheitliche Struktur und Metadaten bleiben Daten an ihren ursprünglichen Kontext gebunden und verlieren mit der Zeit an Wert. Die Ausrufung des Juli zum Monat der strukturierten Daten ist eine kleine Erinnerung daran, dass bessere Datenstrukturierung kein optionaler Mehraufwand ist, sondern ein praktischer Schritt hin zu mehr Interoperabilität und Nachhaltigkeit in der Forschung und in der Arbeit mit Daten generell.

Hinterlassen Sie einen Kommentar