Steuerberatungs-Kanzlei mit Mandanten-Akten
Sachbearbeiter fragt natürlichsprachig nach Mandanten-Historie statt durch 15 Ordner zu klicken. Wichtig dabei: DSGVO-konformer Read-Only-Zugriff mit Audit-Log, On-Premise-Option für hochsensible Daten.
LLM Integration · RAG
RAG (Retrieval Augmented Generation) verbindet Notion, Confluence, Google Drive, SharePoint, dein PDF-Archiv und deine Slack-History mit ChatGPT, Claude oder einem eigenen Bot. Antworten kommen mit Quellenangabe und Confidence-Score. Keine geratenen Antworten, keine erfundenen Fakten.
Was du bekommst
Wir verbinden nicht nur Quellen an ein LLM — wir bauen die ganze Retrieval-Pipeline mit Update-Automation, Reranking und Monitoring. Damit das System über Monate funktioniert, nicht nur in der Demo.
Wofür das nutzt
Sachbearbeiter fragt natürlichsprachig nach Mandanten-Historie statt durch 15 Ordner zu klicken. Wichtig dabei: DSGVO-konformer Read-Only-Zugriff mit Audit-Log, On-Premise-Option für hochsensible Daten.
Kunden-Bot findet das richtige Produkt aus Tausenden Artikeln basierend auf natürlicher Beschreibung (Material, Größe, Preisspanne, Verwendungszweck). Antwort mit Produkt-Links und Bestand.
Neue Mitarbeiter fragen die Wissensbasis statt erfahrene Kollegen zu unterbrechen. Wir indexieren Slack-Threads, Notion, Confluence, GitHub-Issues. Quellenangabe pro Antwort, damit jeder weiß wer ursprünglich die Idee hatte.
Techniker fragt KI im Außendienst nach Spezifikationen, Einbauanleitungen, Garantiebedingungen. PDF-Archiv mit Tausenden Datenblättern wird durchsuchbar — auch wenn das exakte Wort nicht im Dokument vorkommt.
Concierge-Bot beantwortet Gästeanfragen 24/7. Greift zu auf interne FAQ, Insider-Empfehlungen, öffentliche Daten zu Mallorca-Aktivitaeten. Eskaliert bei Komplexität an dich.
So läuft das ab
Eine Woche. Wir gehen mit dir und ein bis zwei Schlüssel-Mitarbeitern durch alle Wissens-Quellen. Bewertung nach Qualität, Aktualität und Sensitivität. Ergebnis: Liste mit drei bis sieben Quellen die in Phase 1 rein gehen.
Wir bauen die Indexing-Pipeline. Chunking-Strategie pro Quelle (lange Dokumente anders als FAQ), Embedding-Modell-Wahl je nach Sprache und Domain, Vector-DB-Setup (pgvector wenn du schon Postgres nutzt, sonst Qdrant Self-Hosted).
Wir bauen eine Test-Suite aus 20-50 realen Queries die wir vorher von dir bekommen. Erfolgs-Kriterium: 80%+ der Queries beantwortet das System korrekt mit der richtigen Quelle. Wenn nicht, iterieren wir an Chunking, Reranking, Prompt.
Das System geht live, wir tracken Query-Volumen, Erfolgsrate, Drift. Monatlicher Report. Update-Automation läuft im Hintergrund. Bei Bedarf passen wir die Pipeline an neue Quellen oder neue Use Cases an.
Preis
Einstieg mit einer Wissens-Source (z.B. nur Notion oder nur dein PDF-Archiv): ab 1.500 EUR einmalig plus 99 EUR/Mo Hosting. Mehrere Quellen oder große Datenmengen (mehr als 50.000 Dokumente) ab 3.500 EUR Setup. Monitoring-Reports und Drift-Detection inklusive. LLM-Kosten (OpenAI, Anthropic) laufen separat auf deinen Account.
Preise und PaketeFAQ
RAG (Retrieval Augmented Generation) holt bei jeder Anfrage die passenden Dokumente aus deiner Wissensbasis und gibt sie dem LLM als Kontext. Fine-Tuning baut dein Wissen direkt ins Modell. RAG-Vorteil: du kannst Wissen tagesaktuell halten ohne neu zu trainieren, du hast Quellenangabe, du behältst Kontrolle. Fine-Tuning braucht mehr Setup und ist bei dynamischen Daten unbrauchbar. Für 95% der KMU-Fälle ist RAG die richtige Wahl.
Default ist pgvector wenn du schon Postgres nutzt (kein extra Service, gut bis ein paar Millionen Vektoren). Qdrant für größere Datenmengen oder spezielle Filter-Anforderungen, Self-Hosted möglich. Weaviate wenn du Multi-Modal brauchst (Text plus Bilder). Wir entscheiden anhand deiner Datenmenge und Hosting-Präferenz, nicht anhand von Hype.
Embeddings: Voyage AI v3 (Standard, sehr gut für Deutsch und Englisch), OpenAI text-embedding-3-large (wenn du eh OpenAI nutzt), Cohere embed-multilingual-v3 wenn du viele Sprachen brauchst. LLM-Antwort-Schicht: Claude Sonnet 4.6 für komplexe Antworten mit langem Kontext, GPT-4 für schnelle Queries, lokale Modelle (Llama 3.3, Mistral) für höchste Datensensitivität.
Hosting der Vector-DB: 0 EUR wenn pgvector auf deinem bestehenden Postgres, 49-149 EUR/Mo wenn separater Service. Embedding-Updates: 5-30 EUR pro 100.000 Chunks (einmalig pro Update). LLM-Kosten pro Query: 0,005-0,05 EUR je nach Modell und Antwort-Länge. Bei 1.000 Queries pro Monat liegst du bei 10-50 EUR LLM-Kosten plus Hosting. Wir geben dir vorher eine Hochrechnung basierend auf deinem erwarteten Volumen.
Einfache Setups (eine Quelle, weniger als 10.000 Dokumente, Standard-Use-Case): drei bis vier Wochen vom Kick-off bis Production. Komplexere Setups (mehrere Quellen, Permissions, Custom-Reranker): sechs bis zehn Wochen. Wir sagen dir nach dem Audit eine ehrliche Schätzung mit Meilensteinen.
Dann gehen wir on-premise oder in deine eigene Cloud (AWS-Account, Hetzner, etc). Embedding-Modell und LLM können lokal laufen (Llama, Mistral via Ollama). Keine Daten verlassen deine Infrastruktur. Wir machen vorher eine DSGVO-Risiko-Analyse und dokumentieren das Setup so dass es auditierbar ist.
Nächster Schritt
Wir schauen welche Wissens-Quellen du hast, ob RAG für deinen Fall der richtige Hebel ist und welche Tools wir empfehlen würden. Ohne Verkaufsdruck. Wenn das Ergebnis ist *RAG passt nicht*, sagen wir das auch.