Question 1

KI (Künstliche Intelligenz)

Accepted Answer

KI ist ein Oberbegriff für Software, die menschliche kognitive Fähigkeiten reproduziert. In der Praxis bezieht sich KI heute meist auf LLM-basierte Systeme wie ChatGPT, Claude, Gemini. Unternehmenswert entsteht meist durch Automatisierung, Kundensupport und Entscheidungsunterstützung.

Question 2

LLM (Großes Sprachmodell)

Accepted Answer

Ein LLM ist ein neuronales Netz mit Milliarden Parametern, trainiert auf Billionen Tokens. Beispiele: GPT-4, Claude, Llama. Keine Wissensdatenbank, sondern ein Mustergenerator — muss mit RAG oder Fine-Tuning kombiniert werden für zuverlässigen Enterprise-Einsatz.

Question 3

RAG (Retrieval-Augmented Generation)

Accepted Answer

RAG ist der Standardansatz zur Anbindung von LLMs an eigene Daten. Schritte: 1) Dokumente embedden, 2) in Vektor-DB speichern, 3) Top-K pro Anfrage abrufen, 4) mit dem Prompt senden. RAG liefert genauere, aktuelle und zitierbare Antworten.

Question 4

KI-Agent

Accepted Answer

KI-Agenten unterscheiden sich von Chatbots dadurch, dass sie handeln: APIs aufrufen, Datenbanken lesen, Emails senden. Orchestrierung via LangGraph, CrewAI oder OpenAI Assistants. Produktive Agenten brauchen Tool-Permissions, Kostengrenzen und Human-in-the-Loop.

Question 5

Multi-Agent-System

Accepted Answer

Multi-Agent-Systeme teilen Arbeit auf rollen-spezialisierte Agenten — Planer, Ausführer, Prüfer. Supervisor und Planner-Executor sind die häufigsten Muster.

Question 6

Prompt Engineering

Accepted Answer

Prompt Engineering umfasst Rollendefinition, Few-Shot-Beispiele, strukturierte Ausgabe, Iteration und Tests. Ein guter Prompt ist 3–5x genauer.

Question 7

Fine-Tuning

Accepted Answer

Fine-Tuning spezialisiert ein Basismodell (Llama 3.1, GPT-4o-mini) auf deine Daten. Methoden: LoRA (leicht) oder Full Fine-Tune (stärker).

Question 8

Vektor-Datenbank

Accepted Answer

Vektor-DBs (Pinecone, Qdrant, Weaviate, pgvector) führen schnelle Ähnlichkeitssuche über Milliarden Embeddings aus. Rückgrat von RAG-Pipelines.

Question 9

Embedding

Accepted Answer

Ein Embedding ist ein 768–3072 Dimensionen Vektor für einen Textabschnitt. Ähnliche Texte liegen nah im Vektor-Raum. Anbieter: OpenAI, Voyage, Cohere, Open-Source.

Question 10

Prompt Injection

Accepted Answer

Häufigste KI-Sicherheitsschwachstelle. Abwehr: Input-Validierung, Instruction Hierarchy, Output-Guardrails, begrenzter Tool-Zugriff.

Question 11

Guardrail

Accepted Answer

Guardrails sind regelbasiert, ML-basiert oder LLM-basiert. Typische Einsätze: PII-Redaktion, Toxizitäts-Filter, Off-Topic-Ablehnung.

Question 12

PII-Redaktion

Accepted Answer

Pflicht für DSGVO-konforme KI. Umsetzung via Regex, ML-NER oder dedizierten Diensten (Presidio, Nightfall).

Question 13

RBAC

Accepted Answer

In KI-Systemen kontrolliert RBAC, welche Rolle welches Tool aufrufen und welche RAG-Daten sehen darf. Kritisch in Multi-Tenant und regulierten Umgebungen.

Question 14

Voice Agent

Accepted Answer

Kombiniert STT (Deepgram, Whisper), LLM und TTS (ElevenLabs, Cartesia). Plattformen: Vapi, LiveKit, Retell. Latenz muss <500ms bleiben.

Question 15

Kontextfenster

Accepted Answer

Umfasst Input + Output. GPT-4: 128k. Claude Sonnet 4.6: 1M. Gemini 2.5 Pro: 2M. Größer = mehr Dokumente, aber teurer und langsamer.

Question 16

Halluzination

Accepted Answer

Mitigationen: RAG, Citation Tracking, Fact-Check-Layer, Human-Review. Kann nicht auf Null reduziert werden — bei kritischen Use-Cases immer Human-in-the-Loop.

Question 17

Token

Accepted Answer

LLMs zählen in Tokens. 1000 Tokens ≈ 700 englische oder ~500 deutsche Wörter. Preis pro Token: ~$3/1M Input, ~$15/1M Output für Claude Sonnet 2026.

Question 18

MCP (Model Context Protocol)

Accepted Answer

Ein MCP-Server wird einmal geschrieben und dient mehreren LLM-Clients (Claude Desktop, Claude Code, eigene Agenten). Industriestandard seit 2025.

Question 19

Context Engineering

Accepted Answer

Systematische Zusammenstellung von System-Prompt, Few-Shot, RAG-Chunks, Tool-Definitionen, Vorgesprächen. Wichtig bei Long-Context-Modellen.

Question 20

KI-Sicherheit

Accepted Answer

Vier Schichten: Input-Validierung, Output-Guardrails, Zugriffskontrolle (RBAC, Tool-Permissions), Audit (Logging, Monitoring).

Question 21

KI-Automatisierung

Accepted Answer

Geht über klassische RPA hinaus: LLMs treffen kontextabhängige Entscheidungen. Typische Use-Cases: Support, Produktbeschreibungen, Email-Triage.

Question 22

DORA

Accepted Answer

Ab 2025 EU-weit verpflichtend: Incident Reporting, Risikomanagement, Vendor-Management.

Question 23

DSGVO

Accepted Answer

Grundlegendes EU-Datenschutzgesetz. Für KI: Rechtsgrundlage, Betroffenenrechte, DPIA für Hochrisiko-Verarbeitung, grenzüberschreitende Datenübermittlung.

Question 24

Generative KI

Accepted Answer

Erzeugt neue Ausgaben, nicht Klassifikation. Hauptfamilien: LLMs (Text), Diffusion (Bild, Video), TTS (Audio), Code-Modelle.

Question 25

Modell-Destillation

Accepted Answer

Trainiert ein kleineres Schülermodell auf den Ausgaben eines größeren Lehrers. Ergebnis: 80–90% Qualität bei 10% Kosten und 5x schneller.

Question 26

KI-Evaluation

Accepted Answer

Braucht ein Custom-Eval-Suite mit echten Business-Metriken. Tools: LangSmith, Langfuse, Promptfoo, Ragas.

Question 27

Few-Shot Prompting

Accepted Answer

1–5 Input-Output-Beispiele, das LLM kopiert den Stil. Oft effektiver als Fine-Tuning für stabile Formate oder Tonalitäten.

Question 28

Vibe Coding

Accepted Answer

2026 macht KI-assistiertes Entwickeln 30–70% der Produktionszeit aus. Die Frage ist nicht, ob, sondern wie.

Question 29

KI-Compliance

Accepted Answer

EU hat drei Schichten: DSGVO, DORA (Finanzen), EU AI Act (ab 2026 voll wirksam).

Question 30

Chunking

Accepted Answer

Chunking ist der Schritt, bei dem Quelldokumente vor dem Embedding in handhabbare Stücke (Chunks) zerlegt werden. Die Größe zählt: zu klein und der Kontext geht verloren, zu groß und die Relevanz verwässert. Absatz-basiertes Chunking schlägt meist eine feste Token-Grenze, weil es die semantische Struktur respektiert. Typische Größe: 200–500 Tokens mit 10–20% Überlappung.

Question 31

Reranking

Accepted Answer

Reranking ist die zweite Retrieval-Stufe in RAG: die Top-20-Ergebnisse der Vektorsuche werden von einem dedizierten Reranker-Modell (Cohere Rerank, BGE-Reranker) neu bewertet, und nur die besten 3–5 erreichen das LLM. Es verbessert die Relevanz typisch um das 3–4-Fache — einer der günstigsten Qualitätsgewinne in einem RAG-System.

Question 32

Hybrid-Suche

Accepted Answer

Die Hybrid-Suche vereint die Stärken der semantischen Vektorsuche (bedeutungsbasiert) und der klassischen BM25-Volltextsuche (exakte Keyword-Treffer). Vektorsuche bewältigt Paraphrasen gut; BM25 bewältigt exakte Codes, Namen und Zahlen. Produktives RAG nutzt fast immer Hybrid-Suche, weil beide zusammen die blinden Flecken des jeweils anderen abdecken.

Question 33

System-Prompt

Accepted Answer

Der System-Prompt ist die erste, konstante Schicht eines LLM-Aufrufs: er setzt Rolle, Ton, Einschränkungen und Ausgabeformat des Modells. Gut geschrieben reduziert er Halluzinationen und stabilisiert die Ausgabe. Niemals ein Geheimnis oder einen API-Schlüssel in einen System-Prompt — nimm an, dass er extrahierbar ist.

Question 34

Function Calling (Tool-Use)

Accepted Answer

Function Calling macht aus einem Chatbot einen Agenten: statt Text zu generieren, entscheidet das Modell, welches Tool mit welchen Parametern aufgerufen wird. Dein Code führt die Funktion aus, das Ergebnis geht zurück ans LLM. Es ist die Grundlage jedes KI-Agenten. MCP ist die standardisierte Form von Function Calling.

Question 35

Human-in-the-Loop

Accepted Answer

Human-in-the-Loop (HITL) bedeutet, dass ein KI-System pausiert und menschliche Freigabe einholt, bevor eine irreversible oder folgenreiche Aktion erfolgt — E-Mail senden, Zahlung, Datenlöschung. Es ist Pflicht bei produktiven Agenten für jede destruktive oder kundenbezogene Ausgabe. HITL ist die zentrale Balance zwischen Autonomie und Sicherheit.

Question 36

Temperature

Accepted Answer

Temperature reicht von 0 bis 1 (oder 2). Niedrig (0–0,3): deterministische, fokussierte Ausgabe — ideal für Extraktion, Klassifizierung, strukturierte Ausgabe. Hoch (0,7–1): kreativer und vielfältiger — für Marketing-Texte oder Ideenfindung. Für regulierte Use-Cases immer eine niedrige Temperature.

Question 37

LoRA / QLoRA

Accepted Answer

LoRA (Low-Rank Adaptation) trainiert kleine Adapter-Matrizen statt des vollen Modells — zu einem Bruchteil von Speicher und Kosten. QLoRA geht weiter: es läuft auf einem quantisierten Modell, sodass selbst ein 70B-Modell auf einer einzelnen GPU feingetunt werden kann. Die meisten Enterprise-Fine-Tunes sind heute LoRA-basiert, weil 500–2.000 Beispiele genügen.

Question 38

Inference

Accepted Answer

Inference ist das 'Ausführen' des Modells — im Gegensatz zum Training, dem Beibringen. Inference-Kosten zahlst du bei jedem API-Aufruf, und sie summieren sich im Produktivbetrieb. Wege zur Senkung: ein kleineres oder feingetuntes Modell, Prompt-Caching, Batch-Verarbeitung und das richtige Modell für die richtige Aufgabe.

Question 39

Chain-of-Thought

Accepted Answer

Chain-of-Thought-(CoT-)Prompting bittet das Modell, vor der finalen Antwort seine Argumentation zu zeigen. Bei komplexen, mehrstufigen Aufgaben (Mathematik, Logik, Planung) verbessert es die Genauigkeit deutlich. Moderne Reasoning-Modelle (o3, Claude-Reasoning-Modus) tun dies eingebaut.

Question 40

EU AI Act

Accepted Answer

Der EU AI Act klassifiziert KI-Systeme nach Risiko: verboten, hochriskant, begrenzt, minimal. Hochriskante Systeme (z. B. Personalauswahl, Kreditbewertung, Healthcare) unterliegen strengen Dokumentations-, Transparenz- und Human-Oversight-Anforderungen, ab 2026 voll durchsetzbar. Neben DSGVO und DORA ist es die dritte große EU-Compliance-Schicht.

Question 41

Jailbreak

Accepted Answer

Ein Jailbreak ist eine Prompt-Technik, die das Modell dazu bringt, seine eingebauten Beschränkungen zu brechen — oft per Rollenspiel ('tu so, als wärst du…') oder einem hypothetischen Rahmen. Es ist ein Verwandter der Prompt-Injection. Abwehr: eine Guardrail-Schicht, die die Absicht vor dem Hauptmodell bewertet, plus Output-Filterung.

KI-Glossar — Deutsch

KI-Entwicklung Budapest

RAG-Entwicklung

KI-Blog