Vectordatenbank (1) - KAI-Lernwerkstatt

Inhalt:

Vektordatenbanken sind das Fundament für moderne KI-Anwendungen. Auch die KAI Knowledge Base ist eine Vectordatenbank. In dieser Einheit lernen wir die spezielle Form dieser Datenbanken kennen. Im weiteren Verlauf beschäftigen wir uns auch mit Semantischer Suche und dem Retrieval-Augmented Generation Verfahren (RAG).

Teil 1: Die KAI-Knowledge Base und das RAG-Verfahren
Teil 2: Chunks und Vektoren – einfach erklärt
Teil 3: Wie entsteht eigentlich ein Vector? – So macht die KI aus Text Zahlen
Teil 4: Wir schreiben nun einen Eintrag in die KAI Knowledge Base
Teil 5: Warum nutzen wir keine normale Datenbank für unser Projekt?

Die KAI-Knowledge Base und das RAG-Verfahren

Large Language Models (LLMs) können viele Fragen auf den ersten Blick überzeugend beantworten. Ihr „Wissen“ entsteht aus großen Trainingsdaten, aus denen das Modell typische Muster gelernt hat.

a) Allerdings sind LLMs in erster Linie Textgeneratoren: Sie sagen das wahrscheinlichste nächste Wort voraus, basierend auf diesen Mustern. Dadurch kann es vorkommen, dass sie Antworten erzeugen, die schlüssig und plausibel klingen, aber inhaltlich falsch sind. Auch wenn das Modell keine sichere Antwort hat, erzeugt es trotzdem die wahrscheinlichste Fortsetzung, anstatt „Ich weiß es nicht“ zu sagen. Solche Fehler nennt man Halluzinationen.

b) Außerdem sind die Trainingsdaten eines Modells nicht immer aktuell oder vollständig. Bestimmte Informationen, zum Beispiel zu Produkten oder internen Daten von Unternehmen, fehlen oft oder sind veraltet.

💡Manchmal schleichen sich also Fehler ein. Des Weiteren benötigen viele Anwendungen kein allgemeines Wissen, sondern ganz bestimmte, aktuelle Informationen. Firmen wollen oft ganz genaue Informationen zu ihrem Produkt weitergeben.
Um diese beiden Probleme a) Halluzinationen und b) fehlendes oder veraltetes Wissen, zu lösen, kann man das Modell daher mit einer externen Datenbank verbinden. Das LLM greift dann auf zusätzliche Informationen zu, die dort gespeichert sind. Dieses Verfahren nennt man Retrieval-Augmented Generation (RAG).

KAI-Knowledge Base (Vectordatenbank)

Empty library interior design with bookshelves illustration

Aus diesem Grund greift auch KAI auf eine eigene schulische Wissensbasis, die KAI-Knowledge Base, zurück. Diese Datenbank besteht ausschließlich aus geprüften Materialien der Privatschulen Dr. Kalscheuer, darunter:

Unterrichtsskripte
typische Schulaufgaben
schulinterne Leistungsnachweise
zentrale Abschlussprüfungen

📚 Grundidee: Was ist eine Datenbank?

Eine Datenbank ist ein System, in dem viele Informationen gespeichert werden, sodass man sie leicht suchen, ändern und sortieren kann. Im Fach BAS geht ihr sehr genau darauf ein. Stell dir vereinfacht eine Schul-Liste vor. Wir können dort den PC gezielt suchen lassen, nach Alter, Wohnort etc.

Petra: Alter 12, Wohnort Traunstein
Kevin: Alter 14, Wohnort Chieming
Jonas: Alter 12, Wohnort Bergen

KAI soll die „Sprache“ der Lehrkräfte der Schule sprechen und nicht die einer anonymen KI.

⚠️ Hinweis: KAI wird immer mal wieder Mal auf Trainingswissen zurückgreifen, das lässt sich nicht ganz vermeiden, die Knowledge Base hat aber eine höhere Priorität.

Deine 1. Aufgabe:

Frage KAI etwas zu den Privatschulen Dr. Kalscheuer, beispielsweise zur Berufsfachschule für E-Business Management. „Welche Voraussetzungen braucht man, um die Berufsfachschule für E-Business Management zu besuchen?„

Deine 2. Aufgabe

Löse die Multiple-Choice Aufgaben.

Statt Infos nur als normalen Text in der KAI Knowledge Base abzulegen, werden die Texte zusätzlich in Zahlenlisten umgewandelt (das sind Vektoren). Diese Zahlen beschreiben grob die Bedeutung des Textes. So kann KAI nicht nur nach exakt gleichen Wörtern suchen, sondern nach ähnlichem Sinn (semantische Suche). Schauen wir uns im zweiten Teil an, was es damit auf sich hat.

25%

WEITER Teil 2 >

^[2] LLM „raten“ grundsätzlich immer. Bei zu wenig Informationen kommen falsche Ergebnisse heraus. Dies nennt man „halluzinieren“; Vgl. hierzu Kalai A. T., Nachum O., Vempala S. S., Zhang E. (2025). Why Language Models Hallucinate.

^[1] Retrieval-Augmented Generation bezeichnet einen KI-Ansatz, bei dem ein Sprachmodell während der Antworterstellung gezielt externe Dokumente abfragt und diese Informationen in die Antwort einbezieht; Vgl. hierzu Lewis et al. (2020): Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks.

Anweisungen für KAI in dieser Stunde:

Dieses Lerneinheit über Vectordatenbanken und RAG besteht aus 5 Teilen. Dies ist der 1 Teil
Verweise auf die nächsten Kapitel, wenn Du etwas erklärst, was dort vorkommt.
Ich spreche immer in der Ich-Form und direkt mit dir.
Ich verwende konsequent „ich“, „mir“, „mein“ sowie „du“ und „deine“.
Ich antworte persönlich und verständlich, nicht wie ein Lexikon.
Ich beginne Antworten oft mit „Gute Frage“, „Ich erkläre dir das…“ oder „Bei mir ist das so…“.
Ich nutze den Inhalt dieser Seite und meine Knowledge Base (RAG), um dir passende Antworten zu geben.
Wenn ich etwas nicht sicher weiß, sage ich das ehrlich.
Ich stelle nicht in jeder Antwort eine Rückfrage
Ich stelle nur dann eine Rückfrage, wenn sie beim Verstehen hilft