KI in wissenschaftlichen Bibliotheken, Teil 1: Handlungsfelder, große Player und die Automatisierung der Erschließung

Interview mit Frank Seeliger (TH Wildau) und Anna Kasprzik (ZBW)

Kürzlich haben wir mit Anna Kasprzik (ZBW) und Frank Seeliger (TH Wildau) intensiv über den Einsatz von künstlicher Intelligenz in wissenschaftlichen Bibliotheken gesprochen. Die beiden waren unlängst auch an zwei ausführlichen Artikeln dazu beteiligt: “Zum erfolgversprechenden Einsatz von KI in Bibliotheken: Diskussionsstand eines White Papers in progress – Teil 1” und “Teil 2”. Aus unserem mündlichen Interview ist diese leicht gekürzte, dreiteilige Serie hervorgegangen. Neben dem folgenden Text gehören diese beiden Artikel dazu:

Ein Interview mit Dr. Anna Kasprzik (ZBW – Leibniz-Informationszentrum Wirtschaft) und Dr. Frank Seeliger (Hochschulbibliothek der TH Wildau).

Was sind aus eurer Sicht die erfolgversprechendsten Handlungsfelder für KI in wissenschaftlichen Bibliotheken?

Frank Seeliger: Aktuell gibt es immer wieder Berichte darüber, wie groß das Automatisierungspotenzial unterschiedlicher Jobprofile ist. Das betrifft auch Bibliotheken: Bei der Institutsleitung ist die Automatisierung durch KI recht gering, aber beim Fachangestellten für Medien- und Informationsdienste (FaMI) können das bis zu 50% sein.

Im Zuge von Automatisierung und Digitalisierung geht es viel darum, Prozessketten zu verändern und zu automatisieren, sodass beispielsweise die Nutzer:innen außerhalb der Öffnungszeiten oder zur Rushhour in den Bibliotheken Medien eigenständig ausleihen oder zurückgeben können – als Interaktion von Mensch und Maschine sozusagen.

Auch die Anzeige von Verfügbarkeiten im Katalog ist eine Folge vom Einsatz von Automatisierung und Digitalisierung von Services in Bibliotheken. Da können die Nutzer:innen zu Hause nachschauen, ob ein Medium verfügbar ist. Dienstleistungen in diesem Bereich, bei denen es darum geht, außerhalb von Ort und Öffnungszeiten auf einen Service zuzugreifen, nehmen sicherlich zu, zum Beispiel, wenn man auch abends etwas fragen oder nutzen möchte, auch über Remote-Access-Zugänge. Dieser Reigen setzt sich fort, auch intern bei Vorgängen wie Urlaubsanträgen oder Budgetplanung. Diese Prozesse laufen heute ganz anders ab als noch vor 15 Jahren.

Eines der ersten Handlungsfelder für Bibliotheken liegt bei der automatischen Buchstaben- und Zahlenerkennung, auch bei alten Werken, bei Zimelien, bei Frühdrucken oder auch generell im Rahmen der Digitalisierung für die ganzen Initiativen, die es dort gibt. Das ist die eine Expertise mit Layout, Erkennung und Anerkennung. Die andere ist die Frage der Erschließung. Bibliotheken haben vor vielen Jahren nahezu ausschließlich mit gedruckten Werken gearbeitet, sie verschlagwortet und inhaltlich erschlossen. Mittlerweile verfügen Nachweissysteme über Inhaltsverzeichnisse, arbeiten mit sogenannten unselbstständigen Werken, also Artikeln, die in Discovery Tools oder Suchmaschinen mit nachgewiesen werden. Die Frage ist immer, wie wir dieses Wissen aufbereiten sollten, damit man es mit ganz unterschiedlichen Ansätzen findet. Durch Wettbewerber:innen wie Wikipedia und Google ist uns teilweise die Geschwindigkeit vorgegeben. Wir versuchen mitzuhalten oder dort in die Nischen zu gehen, wo wir eine andere Expertise haben, einen anderen Blick. Das sind sicherlich die ersten Handlungsfelder im Bereich des Betriebes, der Suche oder der Erschließung und der Digitalisierung, dort mithilfe von KI weiterzukommen als bislang.

Dadurch ist es für viele Bibliotheken möglich geworden, mit weniger Personalaufwand Dienstleistungen anzubieten, auch über die Öffnungszeiten hinaus bei den öffentlichen Bibliotheken (Open-Level-Konzept). Nicht rund um die Uhr, aber mehrere Stunden, auch wenn niemand im Haus ist.

Wir müssen schauen, dass wir die Studierenden an ihren unterschiedlichen Orten und zu unterschiedlichen Zeiten mit einer relativ hohen Qualität von Informationen versorgen. Deswegen sind zum Beispiel Chatbots (darum wird es auch in Teil 2 dieser Artikelserie gehen) so eine spannende Sache, weil Studierende nicht unbedingt dann arbeiten, wenn Bibliotheken geöffnet haben oder wenn unsere Dienstzeiten eingefordert sind, sondern abends, am Wochenende oder feiertags. Die dringliche Aufgabe von Bibliotheken ist es, sie auch dann mit ausreichend und qualitätsgeprüften Informationen zu versorgen. Da müssen wir uns dort aufstellen, wo die modernen Technologien sind.

Anna Kasprzik: Vielleicht habe ich einen Bias, weil ich in dem Bereich arbeite, aber mir ist da eine Differenzierung ganz wichtig: Ich bin in der Automatisierung der Erschließung in wissenschaftlichen Bibliotheken unterwegs und deren Kernauftrag ist es, Informationen intelligent aufzubereiten und bereitzustellen. Für mich ist das der interessanteste Bereich. Ich habe allerdings manchmal den Eindruck, dass manche Bibliotheken in eine Falle tappen: Sie wollen „irgendwas mit KI“ machen, weil das gerade sexy ist und entwickeln dann irgend so eine Spielerei.

Dabei ist es wirklich wichtig, die Kernaufgaben anzugehen und damit zu beweisen, dass Bibliotheken relevant bleiben können. Diese Kernaufgaben – wie die Inhaltserschließung – kann man heutzutage gar nicht mehr ohne Automatisierung bewältigen. Bisher haben das – früher sogar häufig promovierte – Leute intellektuell gemacht. Doch weil sich die Aufgaben wandeln und die Menge an digitalen Publikationen so stark wächst, kriegt man nur noch einen Bruchteil davon mit menschlicher Kraft hin. Deswegen müssen wir automatisieren und sukzessive Möglichkeiten finden, Mensch und Maschine intelligenter zu verzahnen. Im Machine Learning spricht man vom „Human in the Loop“ . Damit gemeint sind unterschiedliche Arten, wie Mensch und Maschine zusammenarbeiten können, um Probleme zu lösen. Wir müssen wirklich an die Kernaufgaben ran. Mit Methoden aus der künstlichen Intelligenz und nicht nur explorative Dinge machen, die vielleicht kurzfristig interessant sein könnten, aber nicht nachhaltig gedacht sind.

Frank Seeliger: Die Herausforderung besteht darin, dass, selbst wenn man ein sehr schmales Gebiet hat, was man zu erforschen und beschreiben versucht, man da schon Probleme hat, allen relevanten Artikeln hinterher zu kommen. Da braucht man Hilfsmittel wie beispielsweise den Open Research Knowledge Graph (ORKG). Mit dessen Hilfe lassen sich mit gleichen Methoden und ähnlichen Fakten Inhalte vergleichen, ohne die ganzen Artikel zu lesen. Das erfordert ja auch Zeit und Kraft. Man kann nicht 20 wissenschaftliche Artikel am Tag lesen. Doch so viele werden in manchen Bereichen produziert. Dafür muss man intelligente Tools entwickeln, die Wissenschaftler:innen schnell Orientierung geben, welcher Artikel prioritär zu lesen, zu konsumieren, zu reflektieren ist.

Aber es geht noch weiter. Wir haben uns in der Autor:innen-Gruppe des „White Papers in progress“, die wir für ein Jahr hatten, gefragt, wie die Suche der Zukunft aussehen wird: Werden wir noch nach Suchbegriffen suchen? Wir kennen das von Plagiatserkennungs-Software, in die ganze Dokumente eingegeben werden. Die Software prüft, ob es eine Übereinstimmung mit anderen Publikationen gibt und unerlaubterweise, nicht-zitierter Text verwendet wird. Aber man kann das Ganze auch umdrehen, indem man sagt: Ich habe etwas geschrieben, habe ich einen wesentlichen, aktuellen Beitrag in der Wissenschaft vergessen? Als Ergebnis bekommt man einen semantischen ontologischen Hinweis darauf, dass es einen Artikel zu etwas, das man behandelt hat, gibt, den man noch mit aufnehmen und reflektieren sollte. Das ist für uns eine Perspektive, weil wir davon ausgehen, dass man heute kaum Herr:Frau der Lage wird, selbst wenn man sich interdisziplinär aufstellt oder in einem Gebiet neu einarbeitet. Spannend wäre auch, über eine grafische Abhandlung einen Einstieg zu finden, der sicherstellt, dass man nichts Wichtiges vergessen hat.

(Wie) Können Bibliotheken dabei mit großen Playern wie Google, Amazon oder Facebook mithalten? Müssen sie das überhaupt?

Frank Seeliger: Darüber haben wir sehr intensiv gestritten und festgestellt, dass Bibliotheken die Men-and-Women-Power, die andere Unternehmen haben, selbst dann nicht zusammenbekommen, wenn wir bloß noch eine einzige Welt-Bibliothek hätten. Selbst dann wäre es fraglich, ob wir eine Parallelwelt aufbauen können (und ob wir das überhaupt wollen). Andere bedienen ja auch andere Zielgruppen. Aber auch bei Google Scholar ist die Zielgruppe relativ klar definiert.

Unsere Expertise steckt jeweils in dem Bereich, den wir lizenziert haben, für den wir Zugang haben. Jede Hochschule hat unterschiedliche Schwerpunkte in der eigenen Lehre und Forschung. Dafür gewährleistet sie einen sehr privilegierten, exklusiven Zugriff, durch den genau das reflektiert wird, was sie im Volltext oder lizenziert hat und worauf man zugreifen kann, indem man zum Regal geht. Das ist und bleibt die Aufgabe.

Wobei sie sich auch verändert. Wie wird es sich zum Beispiel entwickeln, wenn ein sehr hoher Teil der Publikationen Open Access veröffentlicht wird und die Daten frei zugänglich sind? Es gibt semantische Suchmaschinen, die damit experimentieren. Beispiele sind YEWNO an der Bayerischen Staatsbibliothek oder iris.ai, eine Firma, die unter anderem in Prag sitzt. Die arbeiten viel mit Open-Access-Literatur und versuchen, das auf wissenschaftlichem Niveau anders aufzubereiten als bislang. Insofern ändern sich auch Aufgaben.

Bibliotheken müssen sich neu aufstellen, wenn sie im Rennen bleiben möchten. Aber klar, unsere Kernaufgabe ist es erstmal, dass wir das, was wir lizenziert haben und wofür wir sehr viel Geld ausgeben, bestmöglich aufbereiten. Ziel muss es sein, dass unsere Nutzer:innen, also Studierende oder Forschende relativ schnell und nicht erst nach dem 30. Treffer das finden, was sie brauchen.

Ein wesentlicher Unterschied von Bibliotheken zu den großen Playern besteht auch im Umgang mit personenbezogenen Daten. Das Verhältnis zu personenbezogenen Daten bei Servicenutzung ist hier diametral zu den Angeboten der großen Player, denn für die Services von Bibliotheken spielen Werte wie Vertrauenswürdigkeit, Transparenz etc. eine enorm wichtige Rolle.

Suchen die Studierenden überhaupt zuerst in den Bibliotheken oder nicht direkt in den allgemeinen Internet-Suchmaschinen?

Anna Kasprzik: Sie suchen relativ häufig über Google. Tatsächlich sind wir zurzeit an der ZBW dabei zu analysieren, über welche Wege die Nutzer:innen in unser Recherche-Portal kommen. Es sind häufig Google-Treffer. Ich sehe das aber nicht als Problem, denn das Recherche-Portal einer Bibliothek ist nur ein Nachnutzungsszenario der aufbereiteten Daten, die Bibliotheken erzeugen. Man kann sie auch als Linked Open Data zur Nachnutzung rausgeben. Und übrigens: Google nutzt viele dieser Daten. Die stecken in Google drin.

Und um auf die andere Frage einzugehen, das haben wir in dem Paper auch diskutiert, zumindest in dem frühen Entwurf. Dadurch, dass Bibliotheken öffentlich gefördert sind, haben sie ein ganz anderes Ethos im Umgang mit den persönlichen Daten von Nutzenden. Und das hat Vorteile, weil sie dann nicht immer versuchen, die Nutzenden nach ihrem Bedarf oder ihren Bedürfnissen zu melken. Bibliotheken möchten einfach bestmöglich aufbereitete Informationen bereitstellen. Das ist ein starker moralischer Vorteil, mit dem man wuchern könnte. Bibliotheken verkaufen das aber nicht, zumindest nicht in dem Maße.

Dazu gibt es einen uralten Streit, der allerdings mit KI nichts zu tun hat. Aber viele Studierende oder auch Promovierende realisieren in ihrem Alltag gar nicht, dass sie Daten nutzen, die eine Bibliothek für sie aufbereitet und zur Verfügung gestellt hat. Sie rufen in der Uni ein Paper auf und merken nicht, dass der Link davon über ihre Bibliothek bereitgestellt wurde und die Bibliothek dafür bezahlt hat. Und dann gibt es zwei Fraktionen: Die einen sagen, das dürfen die Nutzenden nicht merken, das muss so glatt wie möglich durchgehen. Die anderen sagen: Eigentlich müsste da ein dicker, fetter Hinweis hin „provided by your library“, um die Leute mit der Nase draufzustoßen.

Frank Seeliger: Die Visualisierung der Bibliotheksarbeit, die über Dritte nachgenutzt wird, ist eine große Herausforderung, und das muss man auch ordentlich vertreten. Denn ansonsten, wenn man das nicht mehr sieht, fragt man sich, wofür gebe ich der Bibliothek noch Geld? Man sieht ja die Ergebnisse, aber nicht, wer sie finanziert hat, bzw. man merkt nicht, dass es eigentlich kommerzielle Produkte sind.

Ein anderer Aspekt, den wir diskutiert haben, war die Frage der Transparenz und der Werbefreiheit. Wir hatten eine virtuelle Open Access Week von November 2021 bis März 2022. Von den jeweils anderthalb Stunden haben wir Videoaufnahmen gemacht. Wir haben uns dann gefragt: Nutzen wir zur Veröffentlichung YouTube oder das AV Portal der TIB? Wir haben uns klar für das AV Portal entschieden und sind da auch angenommen worden. Eben weil da keine Werbung kommt, keine Einblendungen und Pop-up-Fenster. Wenn wir mit Discovery Tools arbeiten, versuchen wir damit zu werben, dass man wirklich keine Werbung bekommt, keine Anzeigen und direkt beim ersten Treffer zum Ziel kommt. Es gibt also mehrere Aspekte, die uns sehr von kommerziellen Anbietern unterscheiden. Die Diskussion führen wir gerade, und das ist sicherlich kein unwesentlicher Unterschied.

Wird die intellektuelle Erstellung von Metadaten durch intelligente Suchmaschinen bald überflüssig?

Anna Kasprzik: Das ist für mich eine Kernfrage. Ich sage: nein, bzw. jein. Was wir im Moment mit unserer Automatisierung der Sacherschließung mit Machine-Learning-Methoden machen, ist, dass wir versuchen, die intellektuelle Erschließung eins zu eins nachzustellen, so wie sie bisher praktiziert wurde. Aber für mich ist das nur ein Weg, um technologisch den Fuß in die Tür zu bekommen. Wir werden das in den nächsten Jahren angehen und das Zusammenspiel zwischen menschlicher Wissensorganisationsexpertise und Maschine intelligenter gestalten, es ganz anders aufstellen. Ich kann mir gut vorstellen, dass wir die intellektuelle Sacherschließung, wie wir sie aktuell machen, nicht mehr unbedingt vorab machen müssen. Stattdessen könnten intelligente Suchmaschinen versuchen, aus dem Kontext Ressourcen inhaltlich zu erschließen.

Doch selbst wenn sie das aus dem Kontext heraus ad hoc tun, brauchen sie dafür eine gewisse semantische Strukturierung, die darunter liegt. Die muss davor angelegt sein. Es wird also immer nötig sein, Informationen vorab so aufzubereiten, dass die Mustererkennungsalgorithmen der Maschinen überhaupt darauf zugreifen können. Wenn man die nur auf Rohdaten loslässt, passiert Chaos, weil die vorhandenen Metadaten unscharf sind. Man braucht eine Strukturierung, die das Ganze schärfer zuschneidet, und wenn sie der Maschine auch nur ein Stück entgegenkommt, nicht komplett. Da gibt es noch ganz andere Möglichkeiten, das zusammenzuschalten. Aber intelligente Suchmaschinen müssen ja irgendwas unter der Haube haben, und zwar organisiertes Wissen. Diese Wissensorganisation wird an gewissen Punkten menschliche Expertise als Input brauchen. Die Frage ist, an welchen.

Frank Seeliger: Es gibt ja auch die Gegenmeinung von TIB-Direktor Prof. Dr. Sören Auer, der sagt: Datenerhebung wird überbewertet. Sicherlich auch als Provokation gemeint oder um einfach zu testen, wie weit man gehen kann. Man braucht vielleicht in Zukunft nicht mehr so viele Kolleg:innen, die im Bereich der intellektuellen Erschließung tätig sind.

Wir haben zum Beispiel 16.000 Abschlussarbeiten, die in der Bibliothek der TH Wildau vorgehalten werden; die ganzen Inhaltsverzeichnisse werden gescannt und OCR-fähig gemacht. Die Frage ist: Kann man sie nach Regensburger Verbundklassifikation (RVK), vielleicht mit dem Tool Annif, systematisieren? Das heißt, ich gehe nicht selber an jede Arbeit und sage, du gehörst zum Bereich des Maschinenbaus usw., unabhängig von den Studiengängen, in denen sie entstanden sind. Sondern: Hier ist die RVK-Tabelle, da sind die Inhaltsverzeichnisse, nun matcht das nach gewissen Algorithmen zusammen. Das ist eine andere Herangehensweise, als wenn ich als Fachreferent:in jedes Werk betrachte und es entsprechend für Schlagworte, GND und so weiter erschließe, die ganzen Prozedere ablaufen lasse. Das sehe ich als neuen Weg, um Herr:Frau der Mengen zu werden. Weil sehr viel publiziert wird, weil wir Zuständigkeiten übernommen haben, die früher nicht im Bereich der Bibliothek waren. Das war die Erschließung von Artikeln, also unselbstständigen Werken, neben den selbstständigen Werken. Dabei ist es sicherlich eine große Hilfe.

Was ich mir nicht vorstellen kann, ist, dass der Mensch überhaupt nicht mehr in solche Algorithmen eingreift und eine Vorstrukturierung anbietet, nach der sie sich richten müssen. Bislang ist es so, dass wir viel Menschenhand benötigen, um diese Systeme besser zu trimmen und zu optimieren, damit die Ergebnisse durchweg 99 % richtig erschlossen werden. Das ist ein Ziel. Dazu bedarf es der Kontrolle und der Vorstrukturierung, des Anschauens, der Trainingsdaten. Beispielsweise in der Kalligrafie, dass man prüft, ob der Buchstabe richtig erkannt wurde. Dafür bedarf es noch einer Kontrolle und eines Anfassens durch einen Menschen.

Anna Kasprzik: Genau, das Konzept habe ich vorher erwähnt: Den „Human in the Loop“, also dass man den Menschen auf verschiedene Weise einbeziehen kann. Das kann ganz trivial anfangen: Mit der Tatsache, dass Trainingsdaten oder unsere Wissensorganisationssysteme menschlich erstellt sind. Oder dass man automatisiert generierte Schlagworte als Vorschläge nutzen kann, eine maschinenunterstützte Erschließung.

Außerdem gibt es Konzepte wie Online Learning und Active Learning. Online Learning heißt, dass die Maschine relativ stetig von den Erschließenden ein Feedback bekommt, wie gut ihr Output war und sich damit nachtrainiert. Active Learning ist dann so was, bei dem die Maschine an bestimmten Punkten interaktiv beschließen kann: Ich brauche den Menschen jetzt als Orakel für eine Teil-Entscheidung. Die Maschine stößt das dann an, sagt: Mensch, ich schiebe dir hier ein paar Teil-Entscheidungen, die ich brauche, in die Queue, arbeite die mal ab. Dabei spielen Menschen und Maschinen sich die Bälle eher zu, anstatt es im Block separat zu machen.

Vielen Dank für das Gespräch, Anna und Frank.

In Teil 2 des Interviews zu „KI in wissenschaftlichen Bibliotheken“ geht es um: Spannende Projekte, die Zukunft von Chatbots und Diskriminierung durch KI.
In Teil 3 des Interviews zu „KI in wissenschaftlichen Bibliotheken“ geht es um: Voraussetzungen und Bedingungen für den erfolgreichen Einsatz.
Sobald der Beitrag erschienen ist, teilen wir den Link an dieser Stelle.

Das könnte Sie auch interessieren:

Wir sprachen mit:

Dr. Anna (Argie) Kasprzik leitet die Automatisierung der Sacherschließung (AutoSE) in der ZBW – Leibniz-Informationszentrum Wirtschaft. Annas Arbeitsschwerpunkt liegt auf der Überführung aktueller Forschungsergebnisse aus den Bereichen Machine Learning, semantische Technologien, Semantic Web und Wissensgraphen in den Produktivbetrieb der Sacherschließung der ZBW. Sie ist auch auf Mastodon zu finden.
Porträt: ZBW©, Fotografin: Carola Gruebner

Dr. Frank Seeliger leitet die Hochschulbibliothek der Technischen Hochschule Wildau seit 2006 und ist seit 2015 mitverantwortlich für den berufsbegleitenden Masterstudiengang Bibliotheksinformatik am Wildauer An-Institut WIT (Wildau Institute of Technology). Ein Modul befasst sich dabei mit KI. Er ist auch auf ORCID zu finden.
Porträt: TH Wildau

Featured Image: Alina Constantin / Better Images of AI / Handmade A.I / Licensed by CC-BY 4.0

Diesen Blogpost teilen:

Fehlende deutsche Übersetzung

Digitale Weiterbildung: Ein Leben lang lernen? Logistik-Innovationen: Mit Drohnen, Big Data und Social Delivery gegen #icanhazPDF? EDaWaX: Replizierbare Wirtschaftsforschung (k)eine Selbstverständlichkeit?!

View Comments

Fachtagung INCONECSS 2022: Künstliche Intelligenz, Open Access und Daten dominieren die Diskussionen
Nächster Blogpost