Zum Hauptinhalt springen
StudioMeyer

LLM Integration · Agentic AI

LLMs die echte Aktionen ausführen. Nicht nur reden.

Function-Calling und Tool-Use mit Claude und GPT. Dein KI-Agent reserviert Termine, verschickt Mails, schreibt Rechnungen, fragt deine Datenbank ab, ruft externe APIs. Mit Guardrails, Approval-Workflows für sensible Aktionen und vollständigem Audit-Trail. Genau das was uns von einer Chatbot-Bude unterscheidet.

Was du bekommst

Sechs Bausteine für einen produktionsfähigen LLM-Agent

Ein Agent in der Demo ist einfach. Ein Agent der über Monate korrekt arbeitet und nicht plötzlich falsche Rechnungen verschickt ist Engineering. Wir bauen den ganzen Stack inklusive Sicherheitsnetz.

Tool-Inventar mit Permission-Map
Wir gehen mit dir durch welche Aktionen der Agent darf. Lesen ist meist okay, schreiben mit Approval, löschen nie ohne Mensch. Pro Tool definieren wir Scope, Inputs, Rate-Limits und Sandbox-Verhalten.
Function-Schemas (OpenAI plus Anthropic)
Saubere JSON-Schemas für jedes Tool. Klare Beschreibungen damit der Agent das richtige Tool zur richtigen Zeit wählt. Schema-Tests verhindern Halluzinationen über Parameter.
Guardrails und Approval-Workflows
Was darf der Agent allein, was braucht Bestätigung. Beispiel: Termin-Buchung ohne Frage, Rechnung-Versand mit One-Click-Approval, Geld-Transfer nie ohne menschliche Freigabe. Konfigurierbar pro Tool.
Multi-Tool-Orchestrierung
Komplexe Aufgaben verlangen mehrere Tools nacheinander. Wir bauen die Orchestrierungs-Logik plus Error-Handling — wenn Tool 3 fehlschlaegt, weiß der Agent wie er Tools 1 und 2 rückgängig macht.
Audit-Trail und Logging
Jede Aktion des Agents wird geloggt mit Zeitstempel, Input, Output, Confidence. Du kannst nachvollziehen warum der Agent in Situation X die Aktion Y ausgeführt hat. Wichtig für Compliance.
Fallback zum Menschen
Wenn der Agent unsicher ist, zu komplex wird oder eine ungewöhnliche Konstellation trifft, eskaliert er an dich oder einen definierten Mitarbeiter. Mit allen Daten und seiner bisherigen Überlegung.

Wofür das nutzt

Fünf konkrete Agentic-AI-Setups

Reisebüro mit komplexen Multi-Step-Buchungen

Agent bucht Flüge plus Hotel plus Mietwagen plus Transfer, sendet Bestätigung an den Kunden, legt die Buchung im CRM an, plant den Follow-up-Anruf. Alles in einer Konversation mit dem Kunden, Mensch greift nur bei Sonderfällen ein.

Anwaltskanzlei mit Mandanten-Onboarding

Agent legt neuen Mandanten im DATEV-Stammdaten-System an, erstellt initialen AV-Vertrag aus dem Template, sendet das Dokument zur Unterschrift, plant den Erstgesprächs-Termin. Sensible Aktionen (Rechnung) brauchen Approval vom verantwortlichen Anwalt.

Online-Shop mit Bestell-Stornierung

Kunde sagt Bestellung absagen. Agent storniert Order im Shop, initiiert Rückerstattung bei Stripe oder Klarna, benachrichtigt das Lager, schreibt Bestätigungs-Mail. Alles in 30 Sekunden, kein Mensch nötig.

Praxis-Software mit Termin-Pipeline

Agent legt neuen Patienten an, prüft Krankenversicherungs-Status (Krankenkassen-API), bucht passenden Termin im Praxis-Kalender, schickt SMS-Erinnerung 24h vorher. Bei Privatpatienten escaliert er an die Anmeldung.

Handwerksbetrieb mit Material-Bestellung

Bauleiter sagt Material X für Baustelle Y bestellen. Agent prüft Lager, sucht das Teil bei drei Lieferanten, vergleicht Preis und Lieferzeit, legt Bestellung an, plant Liefertermin in die Baustelle-Planung. Bei Bestellungen über 1.000 EUR Approval vom Inhaber.

So läuft das ab

Vier Phasen vom Action-Inventar zur Production

  1. 01

    Action-Inventar mit Risiko-Bewertung

    Eine Woche. Wir gehen mit dir und ein bis zwei Schlüssel-Mitarbeitern durch alle Aktionen die der Agent ausführen könnte. Pro Aktion: Wert wenn richtig, Schaden wenn falsch, Reversibilität. Daraus folgt die Approval-Logik.

  2. 02

    Function-Schemas und Guardrails

    Wir bauen die Function-Schemas für alle freigegebenen Aktionen. Jedes Schema bekommt Tests gegen typische Mis-Calls (falsche Parameter, fehlende Felder, Halluzinationen). Guardrails-Konfiguration definiert was allein vs mit Approval vs nie.

  3. 03

    Sandbox-Test mit echten Daten

    Wir lassen den Agent in einer Sandbox-Umgebung mit Test-Daten arbeiten. Du gibst uns 20-50 Szenarien (auch Edge-Cases), wir testen jedes davon. Erfolgs-Kriterium: 90%+ richtige Aktionen, 0% schädliche Aktionen ohne Approval.

  4. 04

    Production-Rollout mit Audit-Trail

    Agent geht live. Audit-Trail läuft ab Tag eins. Erste 14 Tage sind wir eng dabei (tägliches Log-Review), danach wechseln wir auf wöchentliches Monitoring. Bei Drift oder Auffälligkeiten passen wir Guardrails an.

Preis

Ab 2.500 EUR Setup pro Use Case plus 199-499 EUR/Mo Hosting

Einfache Setups (zwei bis vier Tools, ein klarer Workflow): ab 2.500 EUR einmalig plus 199 EUR/Mo Hosting. Komplexere Multi-Tool-Agents (fünf bis zehn Tools, mehrere Workflows, Approval-Hierarchie): ab 4.500 EUR Setup plus 299-499 EUR/Mo. LLM-Kosten laufen separat auf deinen OpenAI- oder Anthropic-Account. Wir geben dir vorher eine Hochrechnung.

Preise und Pakete

FAQ

Häufige Fragen zu Agentic AI

Was ist der Unterschied zu einem normalen Chatbot?

Ein Chatbot antwortet mit Text. Ein Agent führt Aktionen aus. Der Chatbot sagt dir die Büro-Öffnungszeiten, der Agent bucht dir tatsächlich einen Termin. Function-Calling ist die technische Grundlage — das LLM bekommt Tool-Schemas und kann sie aufrufen statt nur Text zu generieren. Claude und GPT-4 können das beide gut, GPT-3.5 nur eingeschränkt.

Welche Modelle können Function-Calling sauber?

Spitzen-Klasse: Claude Sonnet 4.6 und GPT-4 Turbo plus GPT-4o. Beide sind sehr zuverlässig bei einfachen Tools und gut bei Multi-Tool-Orchestrierung. Mittelklasse: Claude Haiku 4.5 und GPT-4o-mini (gut für einfache Workflows, weniger zuverlässig bei Komplexität). Lokal: Llama 3.3 70B oder Mistral Large können es, aber mit deutlich höherer Halluzinations-Rate. Für Production empfehlen wir Claude oder GPT-4.

Was wenn der Agent eine falsche Aktion ausführt?

Drei Schutzschichten: 1) Guardrails bestimmen welche Aktionen überhaupt erlaubt sind 2) Approval-Workflows verlangen menschliche Bestätigung für sensible Aktionen 3) Audit-Trail dokumentiert jede Aktion für Nachverfolgung und ggf. Reversal. Plus: wir bauen reversible Operationen wo immer möglich (z.B. Soft-Delete statt Hard-Delete).

Wie funktioniert Approval-Workflow konkret?

Beispiel: Agent will Rechnung an Kunden schicken. Statt direkt zu senden, sendet er eine Slack-Nachricht oder Telegram-Nachricht oder Mail an den verantwortlichen Mitarbeiter mit den Rechnungs-Details. Der antwortet *ja* oder *nein* oder *ändere X*. Erst dann führt der Agent die Aktion aus. Approval-Latenz pro Aktion: Sekunden bis Minuten je nach Setup.

Wer haftet wenn der Agent etwas falsch macht?

Aus DSGVO-Sicht und Haftungs-Sicht ist der Agent ein Tool, du bist der Verantwortliche. Deswegen sind Guardrails plus Approval-Workflows so wichtig — sie zeigen dass du *reasonable measures* getroffen hast. Wir dokumentieren das Setup auditierbar. Bei spezifischen Branchen (Steuer, Medizin, Recht) ziehen wir vor Production einen Fach-Anwalt hinzu, das ist Teil des Pakets.

DSGVO bei externen Tool-Calls?

Wenn der Agent zu OpenAI oder Anthropic geht, gelten deren AV-Verträge plus EU-Hosting-Optionen. Bei API-Calls zu deinen eigenen Systemen bleiben die Daten in deiner Infrastruktur. Bei Drittanbieter-APIs (z.B. ein externes Buchungs-System) gehen Daten dorthin — wir machen vor Production die DSGVO-Mapping pro Tool und legen AV-Verträge offen.

Nächster Schritt

Erstgespräch 30 Minuten kostenlos.

Wir schauen welche Workflows du automatisieren willst, welche Aktionen sensibel sind und ob Agentic AI für deinen Fall der richtige Hebel ist. Ehrliche Einschaetzung statt Sales-Pitch.

Agentic AI & Tool Use: LLM-Agents die Aufgaben erledigen | StudioMeyer | StudioMeyer