LLM-Halluzinationen minimieren durch RAG mit semantischen Graphen
Marc Mueller, Senior Manager AI
Retrieval-Augmented Generation (RAG) auf Basis semantischer Graphen oder Knowledge Graphen ist die effektivste Methode gegen Halluzinationen bei Large Language Models (LLMs). Unsere semantische Datenplattform Almato Bardioc bildet die Grundlage für sichere Anwendungen.
Unsere Kunden möchten die Potenziale individualisierter LLMs voll ausschöpfen. Beispiele für Anwendungen solcher LLMs sind Chatbots im Kundenservice von Unternehmen oder zur Analyse von Gesetzen und Protokollen in öffentlichen Verwaltungen. Dabei ist es entscheidend, dass der Output der Chatbots korrekt ist. Da LLMs grundsätzlich Halluzination aufweisen, müssen effektive Maßnahmen ergriffen werden, um dieses Phänomen zu minimieren. Derzeit bewerten wir RAG auf Basis semantischer Graphen oder Knowledge Graphen als die effektivste Methode. Unsere semantische Datenplattform Almato Bardioc kann dabei als Grundlage äußerst robuster und sicherer Anwendungen dienen.
Die folgende Abbildung zeigt die funktionale Architektur von Almato Bardioc:
Architektur für Retrieval-Augmentation Generation auf Basis von Bardioc:
Der Unterschied zwischen Retrieval-Augmented Generation auf Basis von Bardioc und anderen Ansätzen ohne Knowledge Graph liegt hauptsächlich in der Art und Weise, wie Informationen abgerufen und in den Generierungsprozess integriert werden. Hier sind die wichtigsten Unterschiede:
Retrieval-Augmented Generation auf Basis Bardioc
- Strukturierte Informationen
Bardioc speichert Daten in einer stark strukturierten Form. Diese Struktur ermöglicht es, Beziehungen und Zusammenhänge zwischen verschiedenen Datenpunkten effizient zu erfassen und zu nutzen.
Die Knoten repräsentieren Entitäten (z.B. Personen, Orte, Ereignisse), und die Kanten repräsentieren Beziehungen zwischen diesen Entitäten.
- Effizienter Abruf relevanter Daten:
Da die Daten im Knowledge Graphen von Bardioc bereits strukturiert und verknüpft sind, kann der Abrufprozess gezielt und effizient durchgeführt werden. Dies ermöglicht eine präzise Auswahl der relevanten Daten und Informationen.
Beispiel: Bei einer Frage zu einem Gesetz kann der Knowledge Graph schnell relevante Informationen zu diesem Gesetz, seiner Historie und seinen Beziehungen zu anderen Gesetzen oder Ereignissen liefern.
- Semantische Kohärenz:
Die Struktur des Knowledge Graphen hilft dabei, semantisch kohärente und konsistente Antworten zu generieren, da die Beziehungen und Hierarchien zwischen den Datenpunkten explizit definiert sind.
Dies ist besonders hilfreich, um komplexe Fragestellungen zu bearbeiten und detaillierte Antworten zu generieren, die mehrere Entitäten und deren Beziehungen berücksichtigen. Darüber hinaus wird die Verlässlichkeit der generierten Aussagen deutlich gesteigert.
Allerdings kann derzeit das Phänomen der Halluzination nicht vollständig vermieden werden. Dies zeigen zahlreiche Studien, etwa „A Comprehensive Survey of Hallucination Mitigation Techniques in Large Language Models“ unter Beteiligung der Stanford University und Amazon AI.Ansätze ohne Knowledge Graph
Unstrukturierte oder schwach strukturierte Informationen
Diese Ansätze basieren oft auf großen Mengen unstrukturierter Textdaten (z.B. Dokumente, Artikel, Webseiten), die in ihrer Rohform gespeichert sind.
Die Informationen sind nicht explizit miteinander verknüpft, was den Abruf relevanter Daten erschwert.
Textbasierte Retrieval-Methoden
Ohne die Struktur eines Knowledge Graphen verlassen sich diese Ansätze häufig auf Textsuchmethoden wie TF-IDF, BM25 oder fortgeschrittenere Techniken wie Dense Passage Retrieval (DPR).
Diese Methoden suchen nach relevanten Textpassagen basierend auf Schlüsselwörtern oder Ähnlichkeiten im Text, was zu weniger präzisen und manchmal auch fehlerhaften oder sogar schädlichen Ergebnissen führt.
Kohärenz und Konsistenz
Da die Daten nicht strukturiert sind, besteht ein hohes Risiko, dass die generierten Antworten inkohärent oder inkonsistent sind, besonders wenn die Informationen aus verschiedenen, unzusammenhängenden Quellen stammen.
Dies kann zu Schwierigkeiten bei der Integration mehrerer Informationsquellen in eine einheitliche und kohärente Antwort führen.
Durch die Verwendung von Bardioc und dessen Knowledge Graphen können also qualitativ hochwertigere und relevantere Antworten generiert werden, insbesondere wenn komplexe und detaillierte Informationen benötigt werden.
Zusammenfassung
Bardioc (Knowledge Graph-basiert)
Nutzt strukturierte Daten und explizite Beziehungen zwischen Entitäten, was zu präziseren, kohärenteren und konsistenteren Antworten führt. Relevante Informationen können effizient und zielgerichtet abgerufen werden. Auf diese Weise stellt Bardioc eine umfassende und zuverlässige Wissensquelle von Unternehmensdaten für die Textgenerierung bereit.
Ohne Knowledge Graph
Arbeitet mit unstrukturierten oder schwach strukturierten Daten, nutzt textbasierte Retrieval-Methoden, die oft weniger präzise sind. Die Generierung kohärenter und konsistenter Antworten ist schwieriger und kann zu inkonsistenten Ergebnissen führen
Durch die Verwendung von Bardioc und dessen Knowledge Graphen können also qualitativ hochwertigere und relevantere Antworten generiert werden, insbesondere wenn komplexe und detaillierte Informationen benötigt werden.