Zum Hauptinhalt springen
StudioMeyer

LLM Integration · RAG

Dein Firmenwissen wird zur LLM-Wissensbasis.

RAG (Retrieval Augmented Generation) verbindet Notion, Confluence, Google Drive, SharePoint, dein PDF-Archiv und deine Slack-History mit ChatGPT, Claude oder einem eigenen Bot. Antworten kommen mit Quellenangabe und Confidence-Score. Keine geratenen Antworten, keine erfundenen Fakten.

Was du bekommst

Sechs Bausteine für eine echte LLM-Wissensbasis

Wir verbinden nicht nur Quellen an ein LLM — wir bauen die ganze Retrieval-Pipeline mit Update-Automation, Reranking und Monitoring. Damit das System über Monate funktioniert, nicht nur in der Demo.

Wissens-Inventar
Wir gehen mit dir durch was du an Wissen hast und was davon ins LLM gehört. Notion, Confluence, Google Docs, Drive, SharePoint, PDF-Archiv, Slack-Threads, Meeting-Notizen, FAQ. Was rein muss, was draußen bleiben sollte.
Embedding-Pipeline mit Vector-DB
Wir indexieren deine Daten mit modernen Embedding-Modellen (Voyage AI, OpenAI v3, Cohere) in einer Vector-DB (pgvector, Qdrant, Weaviate). Inklusive Chunking-Strategie die zu deinem Daten-Typ passt.
Hybrid-Retrieval mit Reranking
Vector-Search alleine reicht nicht. Wir kombinieren Vector (semantisch) mit BM25 (Keyword) plus einem Reranker (Cohere, Voyage). Trifft drei- bis fünfmal genauer als reines Vector.
Quellenangabe und Confidence-Score
Jede Antwort kommt mit Link zur Quelle plus Confidence-Score. Wenn das System unsicher ist, sagt es das. Wenn die Quelle aus 2022 ist, sieht der User das.
Update-Automation
Notion-Webhooks, Google-Drive-Sync, S3-Polling. Wenn du ein Dokument änderst, ist es in 5-15 Minuten in der LLM-Wissensbasis. Keine Re-Indexierung von Hand.
Monitoring und Drift-Detection
Wir tracken welche Queries scheitern, welche Quellen nie zitiert werden, wo das LLM trotzdem halluziniert. Monatlicher Report mit konkreten Optimierungs-Vorschlägen.

Wofür das nutzt

Fünf konkrete RAG-Setups die wir gebaut haben oder gut kennen

Steuerberatungs-Kanzlei mit Mandanten-Akten

Sachbearbeiter fragt natürlichsprachig nach Mandanten-Historie statt durch 15 Ordner zu klicken. Wichtig dabei: DSGVO-konformer Read-Only-Zugriff mit Audit-Log, On-Premise-Option für hochsensible Daten.

E-Commerce mit großem Produkt-Katalog

Kunden-Bot findet das richtige Produkt aus Tausenden Artikeln basierend auf natürlicher Beschreibung (Material, Größe, Preisspanne, Verwendungszweck). Antwort mit Produkt-Links und Bestand.

Software-Agentur mit jahrelangem Slack-Wissen

Neue Mitarbeiter fragen die Wissensbasis statt erfahrene Kollegen zu unterbrechen. Wir indexieren Slack-Threads, Notion, Confluence, GitHub-Issues. Quellenangabe pro Antwort, damit jeder weiß wer ursprünglich die Idee hatte.

Handwerksbetrieb mit Hersteller-Datenblättern

Techniker fragt KI im Außendienst nach Spezifikationen, Einbauanleitungen, Garantiebedingungen. PDF-Archiv mit Tausenden Datenblättern wird durchsuchbar — auch wenn das exakte Wort nicht im Dokument vorkommt.

Boutique-Hotel mit Insider-Tipps und Gäste-FAQ

Concierge-Bot beantwortet Gästeanfragen 24/7. Greift zu auf interne FAQ, Insider-Empfehlungen, öffentliche Daten zu Mallorca-Aktivitaeten. Eskaliert bei Komplexität an dich.

So läuft das ab

Vier Phasen vom Audit zum Live-System

  1. 01

    Wissens-Audit

    Eine Woche. Wir gehen mit dir und ein bis zwei Schlüssel-Mitarbeitern durch alle Wissens-Quellen. Bewertung nach Qualität, Aktualität und Sensitivität. Ergebnis: Liste mit drei bis sieben Quellen die in Phase 1 rein gehen.

  2. 02

    Embedding-Setup + Vector-DB

    Wir bauen die Indexing-Pipeline. Chunking-Strategie pro Quelle (lange Dokumente anders als FAQ), Embedding-Modell-Wahl je nach Sprache und Domain, Vector-DB-Setup (pgvector wenn du schon Postgres nutzt, sonst Qdrant Self-Hosted).

  3. 03

    Test mit echten Queries

    Wir bauen eine Test-Suite aus 20-50 realen Queries die wir vorher von dir bekommen. Erfolgs-Kriterium: 80%+ der Queries beantwortet das System korrekt mit der richtigen Quelle. Wenn nicht, iterieren wir an Chunking, Reranking, Prompt.

  4. 04

    Production-Rollout mit Monitoring

    Das System geht live, wir tracken Query-Volumen, Erfolgsrate, Drift. Monatlicher Report. Update-Automation läuft im Hintergrund. Bei Bedarf passen wir die Pipeline an neue Quellen oder neue Use Cases an.

Preis

Ab 1.500 EUR Setup pro Wissens-Source plus 99-299 EUR/Mo Hosting

Einstieg mit einer Wissens-Source (z.B. nur Notion oder nur dein PDF-Archiv): ab 1.500 EUR einmalig plus 99 EUR/Mo Hosting. Mehrere Quellen oder große Datenmengen (mehr als 50.000 Dokumente) ab 3.500 EUR Setup. Monitoring-Reports und Drift-Detection inklusive. LLM-Kosten (OpenAI, Anthropic) laufen separat auf deinen Account.

Preise und Pakete

FAQ

Häufige Fragen zu RAG und LLM-Wissensbasis

Was ist RAG überhaupt und warum nicht einfach Fine-Tuning?

RAG (Retrieval Augmented Generation) holt bei jeder Anfrage die passenden Dokumente aus deiner Wissensbasis und gibt sie dem LLM als Kontext. Fine-Tuning baut dein Wissen direkt ins Modell. RAG-Vorteil: du kannst Wissen tagesaktuell halten ohne neu zu trainieren, du hast Quellenangabe, du behältst Kontrolle. Fine-Tuning braucht mehr Setup und ist bei dynamischen Daten unbrauchbar. Für 95% der KMU-Fälle ist RAG die richtige Wahl.

Welche Vector-Datenbank empfehlt ihr?

Default ist pgvector wenn du schon Postgres nutzt (kein extra Service, gut bis ein paar Millionen Vektoren). Qdrant für größere Datenmengen oder spezielle Filter-Anforderungen, Self-Hosted möglich. Weaviate wenn du Multi-Modal brauchst (Text plus Bilder). Wir entscheiden anhand deiner Datenmenge und Hosting-Präferenz, nicht anhand von Hype.

Welches Embedding-Modell und welches LLM?

Embeddings: Voyage AI v3 (Standard, sehr gut für Deutsch und Englisch), OpenAI text-embedding-3-large (wenn du eh OpenAI nutzt), Cohere embed-multilingual-v3 wenn du viele Sprachen brauchst. LLM-Antwort-Schicht: Claude Sonnet 4.6 für komplexe Antworten mit langem Kontext, GPT-4 für schnelle Queries, lokale Modelle (Llama 3.3, Mistral) für höchste Datensensitivität.

Was kostet der laufende Betrieb pro Monat?

Hosting der Vector-DB: 0 EUR wenn pgvector auf deinem bestehenden Postgres, 49-149 EUR/Mo wenn separater Service. Embedding-Updates: 5-30 EUR pro 100.000 Chunks (einmalig pro Update). LLM-Kosten pro Query: 0,005-0,05 EUR je nach Modell und Antwort-Länge. Bei 1.000 Queries pro Monat liegst du bei 10-50 EUR LLM-Kosten plus Hosting. Wir geben dir vorher eine Hochrechnung basierend auf deinem erwarteten Volumen.

Wie lange dauert das Setup?

Einfache Setups (eine Quelle, weniger als 10.000 Dokumente, Standard-Use-Case): drei bis vier Wochen vom Kick-off bis Production. Komplexere Setups (mehrere Quellen, Permissions, Custom-Reranker): sechs bis zehn Wochen. Wir sagen dir nach dem Audit eine ehrliche Schätzung mit Meilensteinen.

Was wenn meine Daten sehr sensibel sind (Mandanten-Akten, Patienten-Daten)?

Dann gehen wir on-premise oder in deine eigene Cloud (AWS-Account, Hetzner, etc). Embedding-Modell und LLM können lokal laufen (Llama, Mistral via Ollama). Keine Daten verlassen deine Infrastruktur. Wir machen vorher eine DSGVO-Risiko-Analyse und dokumentieren das Setup so dass es auditierbar ist.

Nächster Schritt

Erstgespräch 30 Minuten kostenlos.

Wir schauen welche Wissens-Quellen du hast, ob RAG für deinen Fall der richtige Hebel ist und welche Tools wir empfehlen würden. Ohne Verkaufsdruck. Wenn das Ergebnis ist *RAG passt nicht*, sagen wir das auch.

RAG & LLM-Wissensbasis: Notion, Confluence, PDFs als ChatGPT-Quelle | StudioMeyer | StudioMeyer