Leitfaden für die Dokumentation von ethischen, rechtlichen und sozialen Aspekten (ELSA) in Kulturdaten – Guidelines for the Documentation of Ethical, Legal and Social Issues (ELSI) in Cultural Data
Die aktuell unter dem Schlagwort „künstliche Intelligenz“ (KI) betriebenen Modelle wurden quasi ausschließlich auf Daten des 21. Jahrhunderts trainiert. Daher sind sie in hohem Maße ungeeignet für den Einsatz in historischen oder von der westlichen Welt kulturell differenten Kontexten. Die Bereitstellung von Daten aus dem Kulturerbe-Bereich schafft hier nicht einfach Abhilfe. Zwar sind solche Datensätze meist von hoher Qualität und zeichnen sich durch ihre historische Tiefe, ihren kulturellen Reichtum und ihre Diversität aus. Sie enthalten aber oft problematische Inhalte, die der Weltsicht vergangener Zeiten entstammt, und bedürfen daher einer umfassenden Dokumentation, um machine learning-Modelle präziser, leistungsfähiger und geeignet für den Einsatz in verschiedenen kulturellen Kontexten sowie dem Gemeinwohl dienlich zu machen. Dieser Leitfaden fokussiert auf ethische, soziale und rechtliche Aspekte bei der Dokumentation von Kulturerbe-Daten, die für das Training von machine learning-Modellen benutzt werden. Er konzentriert sich insbesondere darauf, wie diese Modelle möglicherweise historische oder statistische Verzerrungen („biases“) perpetuieren. Die Analyse wandert entlang der verschiedenen Phasen des gesamten machine learning workflows und arbeitet eine Reihe von neuralgischen Punkten heraus, an denen biases entstehen können. Darüber hinaus wird auf die Rolle von Kulturerbe-Einrichtungen abgehoben. Diese Einrichtungen verfügen sowohl über umfangreiches Erfahrungswissen bei der Etablierung von Dokumentationsverfahren als auch über wertvolle Datensätze. Sie sind daher in besonderem Maße dazu qualifiziert, durch mustergültige Dokumentationen begleitete Datensätze zu publizieren. Die Bereitstellung von Kulturerbe-Daten unter Einbeziehung ethischer Erwägungen kann dazu beitragen, für die Gesellschaft kritische Inhalte in einer Art und Weise aufzubereiten, dass die Entwicklung von KI-Anwendungen stimuliert und gesellschaftlich nachteilige Effekte vermieden werden. Der Leitfaden schließt mit einem Plädoyer für einen interdisziplinären Ansatz, um die aufgezeigten Probleme anzugehen, und er betont die Notwendigkeit proaktiver Maßnahmen von Kulturerbe-Einrichtungen, um in den Daten vorhandene Stereotype und Vorurteile zu dokumentieren und so einen positiven Beitrag zur KI-Ethik leisten zu können. Damit eröffnet dieser Leitfaden nicht nur die Möglichkeit, zur Entwicklung kleiner, in hohem Maße für spezifische Aufgaben im Kulturerbe-Bereich geeigneter Modelle mit einem hohen Kosten-Nutzen-Verhältnis beizutragen, sondern auch die vorhandenen großen Mehrzweckmodelle robuster, effizienter, kontextsensitiver, genauer und nachhaltiger zu machen. Die Publikation von hochqualitativen Kulturerbe-Datensätzen inklusive Dokumentation schärft das Profil der Kulturerbe-Einrichtung, macht sie als Partner:innen der Forschung attraktiv und eröffnet die Möglichkeit, an der Einwerbung von Forschungsmitteln teilzuhaben. The machine learning models currently used under the heading ‘artificial intelligence’ (AI) have been trained almost exclusively on data from the 21st century. They are therefore highly unsuitable for use in historical contexts or contexts that differ culturally from the Western world. The provision of data from the cultural heritage sector does not simply provide a remedy here. Such datasets are usually of high quality and are characterised by their historical depth, cultural richness and diversity. However, they often contain problematic content that stems from the worldview of bygone times and therefore require comprehensive documentation in order to make machine learning models more precise, powerful and suitable for use in different cultural contexts, and to enable their use for the common good. This guide focuses on ethical, social and legal aspects of documenting cultural heritage data used for training machine learning models. In particular, it focuses on how these models may perpetuate historical or statistical biases. The analysis moves along the different phases of the entire machine learning workflow and identifies a number of neuralgic points where biases can arise. In addition, the role of cultural heritage institutions is emphasised. These institutions have both extensive experience in establishing documentation procedures and valuable datasets. They are therefore particularly qualified to publish datasets accompanied by exemplary documentation. The provision of cultural heritage data, taking ethical considerations into account, can help to prepare critical content for society in a way that stimulates the development of AI applications and avoids socially detrimental effects. The guide concludes with a plea for an interdisciplinary approach to address the issues identified and emphasises the need for proactive measures by cultural heritage institutions to document existing stereotypes and biases in the data in order to make a positive contribution to AI ethics. In doing so, this guide not only opens up the possibility of contributing to the development of small-scale models that are highly suitable for specific tasks in the cultural heritage sector with a high cost-benefit ratio, but also of making the existing large-scale multipurpose models more robust, efficient, context-sensitive, accurate and sustainable. The publication of high-quality cultural heritage datasets, including documentation, sharpens the profile of the cultural heritage institution, makes it attractive as a partner for research and thus opens up the possibility of participating in the acquisition of research funding.