KI (Künstliche Intelligenz) — Computersysteme, die Aufgaben ausführen, die üblicherweise menschliche Intelligenz erfordern.
KI ist ein Oberbegriff für Software, die menschliche kognitive Fähigkeiten reproduziert. In der Praxis bezieht sich KI heute meist auf LLM-basierte Systeme wie ChatGPT, Claude, Gemini. Unternehmenswert entsteht meist durch Automatisierung, Kundensupport und Entscheidungsunterstützung.
LLM (Großes Sprachmodell) — Neuronales Netz, trainiert auf riesigen Textkorpora, das natürlichsprachliche Antworten generiert.
Ein LLM ist ein neuronales Netz mit Milliarden Parametern, trainiert auf Billionen Tokens. Beispiele: GPT-4, Claude, Llama. Keine Wissensdatenbank, sondern ein Mustergenerator — muss mit RAG oder Fine-Tuning kombiniert werden für zuverlässigen Enterprise-Einsatz.
RAG (Retrieval-Augmented Generation) — Architektur, die relevante Dokumentteile per Vektor-Suche abruft und in den Prompt einfügt.
RAG ist der Standardansatz zur Anbindung von LLMs an eigene Daten. Schritte: 1) Dokumente embedden, 2) in Vektor-DB speichern, 3) Top-K pro Anfrage abrufen, 4) mit dem Prompt senden. RAG liefert genauere, aktuelle und zitierbare Antworten.
KI-Agent — Autonomes LLM-getriebenes System, das Tools aufruft, Entscheidungen trifft und Aufgaben erledigt.
KI-Agenten unterscheiden sich von Chatbots dadurch, dass sie handeln: APIs aufrufen, Datenbanken lesen, Emails senden. Orchestrierung via LangGraph, CrewAI oder OpenAI Assistants. Produktive Agenten brauchen Tool-Permissions, Kostengrenzen und Human-in-the-Loop.
Multi-Agent-System — Mehrere spezialisierte KI-Agenten arbeiten an einer gemeinsamen Aufgabe.
Multi-Agent-Systeme teilen Arbeit auf rollen-spezialisierte Agenten — Planer, Ausführer, Prüfer. Supervisor und Planner-Executor sind die häufigsten Muster.
Prompt Engineering — Bewusste Gestaltung der LLM-Anweisung für die gewünschte Ausgabe.
Prompt Engineering umfasst Rollendefinition, Few-Shot-Beispiele, strukturierte Ausgabe, Iteration und Tests. Ein guter Prompt ist 3–5x genauer.
Fine-Tuning — Weiteres Training eines vortrainierten LLM auf eigenen Daten für eine bestimmte Aufgabe.
Fine-Tuning spezialisiert ein Basismodell (Llama 3.1, GPT-4o-mini) auf deine Daten. Methoden: LoRA (leicht) oder Full Fine-Tune (stärker).
Vektor-Datenbank — Datenbank, die Embedding-Vektoren mit schneller Ähnlichkeitssuche speichert.
Vektor-DBs (Pinecone, Qdrant, Weaviate, pgvector) führen schnelle Ähnlichkeitssuche über Milliarden Embeddings aus. Rückgrat von RAG-Pipelines.
Embedding — Numerische Vektor-Darstellung von Text, die die Bedeutung bewahrt.
Ein Embedding ist ein 768–3072 Dimensionen Vektor für einen Textabschnitt. Ähnliche Texte liegen nah im Vektor-Raum. Anbieter: OpenAI, Voyage, Cohere, Open-Source.
Prompt Injection — Bösartige Eingabe, die die ursprüngliche Anweisung des LLM überschreibt.
Häufigste KI-Sicherheitsschwachstelle. Abwehr: Input-Validierung, Instruction Hierarchy, Output-Guardrails, begrenzter Tool-Zugriff.
Guardrail — Input-/Output-Prüfungsschicht, die unerwünschtes KI-Verhalten verhindert.
Guardrails sind regelbasiert, ML-basiert oder LLM-basiert. Typische Einsätze: PII-Redaktion, Toxizitäts-Filter, Off-Topic-Ablehnung.
PII-Redaktion — Entfernung personenbezogener Daten vor dem Senden eines Prompts an ein LLM.
Pflicht für DSGVO-konforme KI. Umsetzung via Regex, ML-NER oder dedizierten Diensten (Presidio, Nightfall).
RBAC — Role-Based Access Control — regelt Tool-Zugriff und Datenansicht je Nutzerrolle.
In KI-Systemen kontrolliert RBAC, welche Rolle welches Tool aufrufen und welche RAG-Daten sehen darf. Kritisch in Multi-Tenant und regulierten Umgebungen.
Voice Agent — Echtzeit-Sprach-KI, die Gespräche führt und Tools aufruft.
Kombiniert STT (Deepgram, Whisper), LLM und TTS (ElevenLabs, Cartesia). Plattformen: Vapi, LiveKit, Retell. Latenz muss <500ms bleiben.
Kontextfenster — Maximale Anzahl Tokens, die ein LLM gleichzeitig verarbeiten kann.
Umfasst Input + Output. GPT-4: 128k. Claude Sonnet 4.6: 1M. Gemini 2.5 Pro: 2M. Größer = mehr Dokumente, aber teurer und langsamer.
Halluzination — Wenn ein LLM selbstbewusst falsche Informationen generiert.
Mitigationen: RAG, Citation Tracking, Fact-Check-Layer, Human-Review. Kann nicht auf Null reduziert werden — bei kritischen Use-Cases immer Human-in-the-Loop.
Token — LLM-Text-Einheit, etwa 0,7 englische Wörter.
LLMs zählen in Tokens. 1000 Tokens ≈ 700 englische oder ~500 deutsche Wörter. Preis pro Token: ~$3/1M Input, ~$15/1M Output für Claude Sonnet 2026.
MCP (Model Context Protocol) — Anthropic-entwickelter Standard für Tool-Kommunikation zwischen LLMs und externen Diensten.
Ein MCP-Server wird einmal geschrieben und dient mehreren LLM-Clients (Claude Desktop, Claude Code, eigene Agenten). Industriestandard seit 2025.
Context Engineering — Bewusste Gestaltung des LLM-Kontexts — nicht nur Prompt, sondern der ganze Input-Stack.
Systematische Zusammenstellung von System-Prompt, Few-Shot, RAG-Chunks, Tool-Definitionen, Vorgesprächen. Wichtig bei Long-Context-Modellen.
KI-Sicherheit — Schutz von KI-Systemen vor Prompt Injection, Datenleaks und Angriffen.
Vier Schichten: Input-Validierung, Output-Guardrails, Zugriffskontrolle (RBAC, Tool-Permissions), Audit (Logging, Monitoring).
KI-Automatisierung — KI-getriebene Automatisierung von Geschäftsprozessen — Support, Dokumente, Email.
Geht über klassische RPA hinaus: LLMs treffen kontextabhängige Entscheidungen. Typische Use-Cases: Support, Produktbeschreibungen, Email-Triage.
DORA — EU Digital Operational Resilience Act für IT- und KI-Systeme von Finanzinstituten.
Ab 2025 EU-weit verpflichtend: Incident Reporting, Risikomanagement, Vendor-Management.
DSGVO — EU-Datenschutz-Grundverordnung.
Grundlegendes EU-Datenschutzgesetz. Für KI: Rechtsgrundlage, Betroffenenrechte, DPIA für Hochrisiko-Verarbeitung, grenzüberschreitende Datenübermittlung.
Generative KI — KI, die neuen Inhalt erzeugt — Text, Bild, Audio, Code.
Erzeugt neue Ausgaben, nicht Klassifikation. Hauptfamilien: LLMs (Text), Diffusion (Bild, Video), TTS (Audio), Code-Modelle.
Modell-Destillation — Übertragung des 'Wissens' eines großen Modells in ein kleineres, schnelleres.
Trainiert ein kleineres Schülermodell auf den Ausgaben eines größeren Lehrers. Ergebnis: 80–90% Qualität bei 10% Kosten und 5x schneller.
KI-Evaluation — Messen der KI-Leistung — Genauigkeit, Geschwindigkeit, Kosten, Toxizität.
Braucht ein Custom-Eval-Suite mit echten Business-Metriken. Tools: LangSmith, Langfuse, Promptfoo, Ragas.
Few-Shot Prompting — Mehrere Beispiele im Prompt einbauen, damit das LLM dem Muster folgt.
1–5 Input-Output-Beispiele, das LLM kopiert den Stil. Oft effektiver als Fine-Tuning für stabile Formate oder Tonalitäten.
Vibe Coding — LLM-getriebenes iteratives Coden — Entwickler beschreibt Absicht, KI generiert Code.
2026 macht KI-assistiertes Entwickeln 30–70% der Produktionszeit aus. Die Frage ist nicht, ob, sondern wie.
KI-Compliance — Erfüllung rechtlicher, datenschutzrechtlicher und ethischer Anforderungen.
EU hat drei Schichten: DSGVO, DORA (Finanzen), EU AI Act (ab 2026 voll wirksam).