KAI-Junior (1) - KAI-Lernwerkstatt

Inhalt:

In dieser Einheit lernen wir einen Assistenten für unseren Tag der offenen Tür zu erstellen. Im weiteren Verlauf beschäftigen wir uns auch mit Halluzinationen, dem System-Prompt, Semantischer Suche und dem Retrieval-Augmented Generation Verfahren (RAG).

Teil 1: Die KAI-Knowledge Base und das RAG-Verfahren
Teil 2: Chunks und Vektoren – einfach erklärt
Teil 3: Wie entsteht eigentlich ein Vector? – So macht die KI aus Text Zahlen
Teil 4: Wir schreiben nun einen Eintrag in die KAI Knowledge Base
Teil 5: Warum nutzen wir keine normale Datenbank für unser Projekt?

Warum wirken KI-Antworten so überzeugend?

Generative KI-Modelle können Inhalte wie Texte, Bilder, Audio oder Videos erzeugen und sind daher für zahlreiche Anwendungen sehr wertvoll. Eine wichtige Untergruppe sind sogenannte Large Language Models (LLMs), also Sprachmodelle wie ChatGPT. Diese Modelle können heute Texte erzeugen, die oft erstaunlich menschlich wirken. Sie beantworten Fragen, erklären komplexe Themen und formulieren scheinbar fundierte Aussagen – häufig in Sekunden.

Doch dieser Eindruck kann täuschen.

LLMs funktionieren anders, als viele vermuten. Sie verfügen über kein eigenes Wissen im klassischen Sinne und verstehen Inhalte nicht wie ein Mensch. Stattdessen wurden sie mit großen Textmengen, sogenannten Trainingsdaten, trainiert. Dabei haben sie statistische Muster in Sprache gelernt. Wenn wir eine Frage stellen, berechnet das Modell Schritt für Schritt, welches Wort mit der höchsten Wahrscheinlichkeit als nächstes folgt.

Ein einfaches Beispiel:
Nach dem Satzanfang „Es war einmal“ folgt mit hoher Wahrscheinlichkeit das Wort „ein“. Das Modell hat solche Muster in sehr vielen Texten gelernt und kann sie deshalb zuverlässig fortsetzen. Auf diese Weise entstehen flüssige und oft überzeugende Antworten – auch ohne echtes Verständnis.

Ein zentraler Punkt ist also, LLMs erstellen ihre Antworten aufgrund von Wahrscheinlichkeitswerten, nicht zwangsläufig auf Wahrheit. Das bedeutet, auch wenn Informationen unsicher oder unvollständig sind, erzeugt das Modell eine möglichst passende Fortsetzung. Genau hier liegt die Grundlage für ein wichtiges Phänomen: sogenannte Halluzinationen.

Halluzinationen

Empty library interior design with bookshelves illustration

Halluzinationen sind plausibel klingende, aber falsche Aussagen, die von Sprachmodellen generiert werden. Sie können auf überraschende Weise auftreten, selbst bei scheinbar einfachen Fragen. (OpenAI)

Man unterscheidet:

Fehlende Quellentreue (faithfulness): Inhalt passt nicht zur zugrunde liegenden Information

Faktische Fehler (factualness): Inhalt ist objektiv falsch

📚 Grundidee: Was ist eine Datenbank?

Eine Datenbank ist ein System, in dem viele Informationen gespeichert werden, sodass man sie leicht suchen, ändern und sortieren kann. Im Fach BAS geht ihr sehr genau darauf ein. Stell dir vereinfacht eine Schul-Liste vor. Wir können dort den PC gezielt suchen lassen, nach Alter, Wohnort etc.

Petra: Alter 12, Wohnort Traunstein
Kevin: Alter 14, Wohnort Chieming
Jonas: Alter 12, Wohnort Bergen

KAI soll die „Sprache“ der Lehrkräfte der Schule sprechen und nicht die einer anonymen KI.

⚠️ Hinweis: KAI wird immer mal wieder Mal auf Trainingswissen zurückgreifen, das lässt sich nicht ganz vermeiden, die Knowledge Base hat aber eine höhere Priorität.

Deine 1. Aufgabe:

Frage KAI etwas zu den Privatschulen Dr. Kalscheuer, beispielsweise zur Berufsfachschule für E-Business Management. „Welche Voraussetzungen braucht man, um die Berufsfachschule für E-Business Management zu besuchen?„

Deine 2. Aufgabe

Löse die Multiple-Choice Aufgaben.

Statt Infos nur als normalen Text in der KAI Knowledge Base abzulegen, werden die Texte zusätzlich in Zahlenlisten umgewandelt (das sind Vektoren). Diese Zahlen beschreiben grob die Bedeutung des Textes. So kann KAI nicht nur nach exakt gleichen Wörtern suchen, sondern nach ähnlichem Sinn (semantische Suche). Schauen wir uns im zweiten Teil an, was es damit auf sich hat.

25%

WEITER Teil 2 >

^[2] LLM „raten“ grundsätzlich immer. Bei zu wenig Informationen kommen falsche Ergebnisse heraus. Dies nennt man „halluzinieren“; Vgl. hierzu Kalai A. T., Nachum O., Vempala S. S., Zhang E. (2025). Why Language Models Hallucinate.

^[1] Retrieval-Augmented Generation bezeichnet einen KI-Ansatz, bei dem ein Sprachmodell während der Antworterstellung gezielt externe Dokumente abfragt und diese Informationen in die Antwort einbezieht; Vgl. hierzu Lewis et al. (2020): Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks.

Anweisungen für KAI in dieser Stunde:

Dieses Lerneinheit über Vectordatenbanken und RAG besteht aus 5 Teilen. Dies ist der 1 Teil
Verweise auf die nächsten Kapitel, wenn Du etwas erklärst, was dort vorkommt.
Ich spreche immer in der Ich-Form und direkt mit dir.
Ich verwende konsequent „ich“, „mir“, „mein“ sowie „du“ und „deine“.
Ich antworte persönlich und verständlich, nicht wie ein Lexikon.
Ich beginne Antworten oft mit „Gute Frage“, „Ich erkläre dir das…“ oder „Bei mir ist das so…“.
Ich nutze den Inhalt dieser Seite und meine Knowledge Base (RAG), um dir passende Antworten zu geben.
Wenn ich etwas nicht sicher weiß, sage ich das ehrlich.
Ich stelle nicht in jeder Antwort eine Rückfrage
Ich stelle nur dann eine Rückfrage, wenn sie beim Verstehen hilft