HealthDCAT-AP.de ist ein Vorhaben im Rahmen der Post-COVID-Challenge anlässlich der Gründung des Dateninstitutes des Bundes. Aktuell befinden wir uns in Stufe 2 der Challenge. Das Vorhaben erprobt einen innovativen Semantic-Web-Ansatz, um Metadaten aus verschiedenen Quellen im Gesundheitsbereich innerhalb eines Standards zusammenzuführen und interaktive Abfragen zu ermöglichen.
Die Erforschung des Post-COVID-Syndroms, also Beschwerden, die mindestens zwölf Wochen oder länger nach der akuten COVID-Infektion vorliegen, ist von hoher gesellschaftlicher Relevanz. Analog zu ME/CFS (Myalgische Enzephalomyelitis/Chronisches Fatigue-Syndrom) ist die Forschung durch heterogene und zugleich oft diffuse Symptome erschwert. Das Fehlen gepflegter Datensätze und insbesondere gepflegter Metadatensätze, die eine Verknüpfung zwischen den einzelnen Datensätzen und somit auch Verknüpfungen zwischen Risikofaktoren und Symptomen erlauben, stellt ein weiteres Hindernis für die Auswertung der Daten dar. Da die Daten aus verschiedenen medzinischen Fachbereichen und weiteren Quellen kommen, unterstützt der Semantic-Web-Ansatz insbesondere die Nutzung der FAIR-Prinzipien (Findable, Accessible, Interoperable, Re-usable).
Als international zu bewertende Fragestellung müssen Konzepte zur Adressierung der oben beschriebenen Problemlage ebenso international gedacht werden. Für den europäischen Datenraum sind mit dem European (Health) Data Space (EHDS), dem Data Act, dem AI-Act sowie dem Interoperable Europe Act wichtige gesetzliche Grundlagen für die (semantische) Interoperabilität gelegt worden.
Zwar existieren bereits sektorspezifische Datenformate und -konzepte wie HL7 FHIR, Thesauri, Taxonomien, Ontologien, Applikationsprofile und auch vereinzelt Wissensgraphen; ein auf den Gesundheitssektor angepasster Datenkatalog-Standard, der die für einen übergreifenden Datenraum benötigten Funktionen unterstützt, ist jedoch noch nicht vorhanden.
Im Rahmen des Vorhabens HealthDCAT-AP.de wird ein solcher Standard mit dem Ansatz des Semantic Web erarbeitet. Grundlage dieses Ansatzes ist die Verknüpfung von Datensätzen über ihre Metadaten mittels semantisch festgelegter Beziehungen. Durch die Festlegung dieser Beziehungen können nicht explizit hinterlegte Verknüpfungen hergestellt (Inferenz) und damit insbesondere auch zur Beantwortung nicht antizipierter Fragestellungen herangezogen werden. Das Vorhaben HealthDCAT-AP.de berücksichtigt dabei das Pilotprojekt HealthData@EU und das dort entwickelte Datenmodell HealthDCAT-AP. Dieses wird mithilfe von Instanzdaten zu einem Wissensgraphen weiterentwickelt. Daneben stellen die Themen Interoperabilität (auch mit Blick auf andere EU-Staaten) sowie Datenschutz die Grundlagen der Projekttätigkeit dar.