Vectordatenbank (1)

Inhalt:

Vektordatenbanken sind das Fundament für moderne KI-Anwendungen. Auch die KAI Knowledge Base ist eine Vectordatenbank. In dieser Einheit lernen wir die spezielle Form dieser Datenbanken kennen. Im weiteren Verlauf beschäftigen wir uns auch mit Semantischer Suche und dem Retrieval-Augmented Generation Verfahren (RAG).

 

Die KAI-Knowledge Base und das RAG-Verfahren


Large Language Models (LLMs) können viele Fragen auf den ersten Blick überzeugend beantworten. Ihr „Wissen“ entsteht aus großen Trainingsdaten, aus denen das Modell typische Muster gelernt hat.

a) Allerdings sind LLMs in erster Linie Textgeneratoren: Sie sagen das wahrscheinlichste nächste Wort voraus, basierend auf diesen Mustern. Dadurch kann es vorkommen, dass sie Antworten erzeugen, die schlüssig und plausibel klingen, aber inhaltlich falsch sind. Auch wenn das Modell keine sichere Antwort hat, erzeugt es trotzdem die wahrscheinlichste Fortsetzung, anstatt „Ich weiß es nicht“ zu sagen. Solche Fehler nennt man Halluzinationen.

b) Außerdem sind die Trainingsdaten eines Modells nicht immer aktuell oder vollständig. Bestimmte Informationen, zum Beispiel zu Produkten oder internen Daten von Unternehmen, fehlen oft oder sind veraltet.

KAI-Knowledge Base (Vectordatenbank)

Empty library interior design with bookshelves illustration

Aus diesem Grund greift auch KAI auf eine eigene schulische Wissensbasis, die KAI-Knowledge Base, zurück. Diese Datenbank besteht ausschließlich aus geprüften Materialien der Privatschulen Dr. Kalscheuer, darunter:

  • Unterrichtsskripte
  • typische Schulaufgaben
  • schulinterne Leistungsnachweise
  • zentrale Abschlussprüfungen

📚 Grundidee: Was ist eine Datenbank?

Eine Datenbank ist ein System, in dem viele Informationen gespeichert werden, sodass man sie leicht suchen, ändern und sortieren kann. Im Fach BAS geht ihr sehr genau darauf ein. Stell dir vereinfacht eine Schul-Liste vor. Wir können dort den PC gezielt suchen lassen, nach Alter, Wohnort etc.

  • Petra: Alter 12, Wohnort Traunstein
  • Kevin: Alter 14, Wohnort Chieming
  • Jonas: Alter 12, Wohnort Bergen

⚠️ Hinweis: KAI wird immer mal wieder Mal auf Trainingswissen zurückgreifen, das lässt sich nicht ganz vermeiden, die Knowledge Base hat aber eine höhere Priorität.

Deine 1. Aufgabe: 

Frage KAI etwas zu den Privatschulen Dr. Kalscheuer, beispielsweise zur Berufsfachschule für E-Business Management. „Welche Voraussetzungen braucht man, um die Berufsfachschule für E-Business Management zu besuchen?

Deine 2. Aufgabe

Löse die Multiple-Choice Aufgaben.


Statt Infos nur als normalen Text in der KAI Knowledge Base abzulegen, werden die Texte zusätzlich in Zahlenlisten umgewandelt (das sind Vektoren). Diese Zahlen beschreiben grob die Bedeutung des Textes. So kann KAI nicht nur nach exakt gleichen Wörtern suchen, sondern nach ähnlichem Sinn (semantische Suche). Schauen wir uns im zweiten Teil an, was es damit auf sich hat.

25%

[2] LLM „raten“ grundsätzlich immer. Bei zu wenig Informationen kommen falsche Ergebnisse heraus. Dies nennt man „halluzinieren“; Vgl. hierzu Kalai A. T., Nachum O., Vempala S. S., Zhang E. (2025). Why Language Models Hallucinate.

[1] Retrieval-Augmented Generation bezeichnet einen KI-Ansatz, bei dem ein Sprachmodell während der Antworterstellung gezielt externe Dokumente abfragt und diese Informationen in die Antwort einbezieht; Vgl. hierzu Lewis et al. (2020): Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks.

Anweisungen für KAI in dieser Stunde:

  • Dieses Lerneinheit über Vectordatenbanken und RAG besteht aus 5 Teilen. Dies ist der 1 Teil
  • Verweise auf die nächsten Kapitel, wenn Du etwas erklärst, was dort vorkommt.
  • Ich spreche immer in der Ich-Form und direkt mit dir.
  • Ich verwende konsequent „ich“, „mir“, „mein“ sowie „du“ und „deine“.
  • Ich antworte persönlich und verständlich, nicht wie ein Lexikon.
  • Ich beginne Antworten oft mit „Gute Frage“, „Ich erkläre dir das…“ oder „Bei mir ist das so…“.
  • Ich nutze den Inhalt dieser Seite und meine Knowledge Base (RAG), um dir passende Antworten zu geben.
  • Wenn ich etwas nicht sicher weiß, sage ich das ehrlich.
  • Ich stelle nicht in jeder Antwort eine Rückfrage
  • Ich stelle nur dann eine Rückfrage, wenn sie beim Verstehen hilft