LLM Integration · Agentic AI

LLMs die echte Aktionen ausführen. Nicht nur reden.

Function-Calling und Tool-Use mit Claude und GPT. Dein KI-Agent reserviert Termine, verschickt Mails, schreibt Rechnungen, fragt deine Datenbank ab, ruft externe APIs. Mit Guardrails, Approval-Workflows für sensible Aktionen und vollständigem Audit-Trail. Genau das was uns von einer Chatbot-Bude unterscheidet.

Was du bekommst Wofür das nutzt

Was du bekommst

Sechs Bausteine für einen produktionsfähigen LLM-Agent

Ein Agent in der Demo ist einfach. Ein Agent der über Monate korrekt arbeitet und nicht plötzlich falsche Rechnungen verschickt ist Engineering. Wir bauen den ganzen Stack inklusive Sicherheitsnetz.

Tool-Inventar mit Permission-Map: Wir gehen mit dir durch welche Aktionen der Agent darf. Lesen ist meist okay, schreiben mit Approval, löschen nie ohne Mensch. Pro Tool definieren wir Scope, Inputs, Rate-Limits und Sandbox-Verhalten.
Function-Schemas (OpenAI plus Anthropic): Saubere JSON-Schemas für jedes Tool. Klare Beschreibungen damit der Agent das richtige Tool zur richtigen Zeit wählt. Schema-Tests verhindern Halluzinationen über Parameter.
Guardrails und Approval-Workflows: Was darf der Agent allein, was braucht Bestätigung. Beispiel: Termin-Buchung ohne Frage, Rechnung-Versand mit One-Click-Approval, Geld-Transfer nie ohne menschliche Freigabe. Konfigurierbar pro Tool.
Multi-Tool-Orchestrierung: Komplexe Aufgaben verlangen mehrere Tools nacheinander. Wir bauen die Orchestrierungs-Logik plus Error-Handling, wenn Tool 3 fehlschlaegt, weiß der Agent wie er Tools 1 und 2 rückgängig macht.
Audit-Trail und Logging: Jede Aktion des Agents wird geloggt mit Zeitstempel, Input, Output, Confidence. Du kannst nachvollziehen warum der Agent in Situation X die Aktion Y ausgeführt hat. Wichtig für Compliance.
Fallback zum Menschen: Wenn der Agent unsicher ist, zu komplex wird oder eine ungewöhnliche Konstellation trifft, eskaliert er an dich oder einen definierten Mitarbeiter. Mit allen Daten und seiner bisherigen Überlegung.

Wofür das nutzt

Fünf konkrete Agentic-AI-Setups

Reisebüro mit komplexen Multi-Step-Buchungen

Agent bucht Flüge plus Hotel plus Mietwagen plus Transfer, sendet Bestätigung an den Kunden, legt die Buchung im CRM an, plant den Follow-up-Anruf. Alles in einer Konversation mit dem Kunden, Mensch greift nur bei Sonderfällen ein.

Anwaltskanzlei mit Mandanten-Onboarding

Agent legt neuen Mandanten im DATEV-Stammdaten-System an, erstellt initialen AV-Vertrag aus dem Template, sendet das Dokument zur Unterschrift, plant den Erstgesprächs-Termin. Sensible Aktionen (Rechnung) brauchen Approval vom verantwortlichen Anwalt.

Online-Shop mit Bestell-Stornierung

Kunde sagt Bestellung absagen. Agent storniert Order im Shop, initiiert Rückerstattung bei Stripe oder Klarna, benachrichtigt das Lager, schreibt Bestätigungs-Mail. Alles in 30 Sekunden, kein Mensch nötig.

Praxis-Software mit Termin-Pipeline

Agent legt neuen Patienten an, prüft Krankenversicherungs-Status (Krankenkassen-API), bucht passenden Termin im Praxis-Kalender, schickt SMS-Erinnerung 24h vorher. Bei Privatpatienten escaliert er an die Anmeldung.

Handwerksbetrieb mit Material-Bestellung

Bauleiter sagt Material X für Baustelle Y bestellen. Agent prüft Lager, sucht das Teil bei drei Lieferanten, vergleicht Preis und Lieferzeit, legt Bestellung an, plant Liefertermin in die Baustelle-Planung. Bei Bestellungen über 1.000 EUR Approval vom Inhaber.

So läuft das ab

Vier Phasen vom Action-Inventar zur Production

01
Action-Inventar mit Risiko-Bewertung
Eine Woche. Wir gehen mit dir und ein bis zwei Schlüssel-Mitarbeitern durch alle Aktionen die der Agent ausführen könnte. Pro Aktion: Wert wenn richtig, Schaden wenn falsch, Reversibilität. Daraus folgt die Approval-Logik.
02
Function-Schemas und Guardrails
Wir bauen die Function-Schemas für alle freigegebenen Aktionen. Jedes Schema bekommt Tests gegen typische Mis-Calls (falsche Parameter, fehlende Felder, Halluzinationen). Guardrails-Konfiguration definiert was allein vs mit Approval vs nie.
03
Sandbox-Test mit echten Daten
Wir lassen den Agent in einer Sandbox-Umgebung mit Test-Daten arbeiten. Du gibst uns 20-50 Szenarien (auch Edge-Cases), wir testen jedes davon. Erfolgs-Kriterium: 90%+ richtige Aktionen, 0% schädliche Aktionen ohne Approval.
04
Production-Rollout mit Audit-Trail
Agent geht live. Audit-Trail läuft ab Tag eins. Erste 14 Tage sind wir eng dabei (tägliches Log-Review), danach wechseln wir auf wöchentliches Monitoring. Bei Drift oder Auffälligkeiten passen wir Guardrails an.

FAQ

Häufige Fragen zu Agentic AI

Was ist der Unterschied zu einem normalen Chatbot?

Ein Chatbot antwortet mit Text. Ein Agent führt Aktionen aus. Der Chatbot sagt dir die Büro-Öffnungszeiten, der Agent bucht dir tatsächlich einen Termin. Function-Calling ist die technische Grundlage, das LLM bekommt Tool-Schemas und kann sie aufrufen statt nur Text zu generieren. Die aktuellsten Modelle von Anthropic (Claude) und OpenAI (GPT) können das gut.

Welche Modelle können Function-Calling sauber?

Für Production empfehlen wir die aktuellsten Spitzen-Modelle von Anthropic (Claude) und OpenAI (GPT). Die liefern zuverlässige Multi-Tool-Orchestrierung. Lokale Modelle können einfache Agent-Workflows bedienen, mit höherer Halluzinations-Rate bei komplexen Multi-Tool-Setups. Wir wählen je nach Datensensitivität und Komplexität.

Was wenn der Agent eine falsche Aktion ausführt?

Drei Schutzschichten: 1) Guardrails bestimmen welche Aktionen überhaupt erlaubt sind 2) Approval-Workflows verlangen menschliche Bestätigung für sensible Aktionen 3) Audit-Trail dokumentiert jede Aktion für Nachverfolgung und ggf. Reversal. Plus: wir bauen reversible Operationen wo immer möglich (z.B. Soft-Delete statt Hard-Delete).

Wie funktioniert Approval-Workflow konkret?

Beispiel: Agent will Rechnung an Kunden schicken. Statt direkt zu senden, sendet er eine Slack-Nachricht oder Telegram-Nachricht oder Mail an den verantwortlichen Mitarbeiter mit den Rechnungs-Details. Der antwortet *ja* oder *nein* oder *ändere X*. Erst dann führt der Agent die Aktion aus. Approval-Latenz pro Aktion: Sekunden bis Minuten je nach Setup.

Wer haftet wenn der Agent etwas falsch macht?

Aus DSGVO-Sicht und Haftungs-Sicht ist der Agent ein Tool, du bist der Verantwortliche. Deswegen sind Guardrails plus Approval-Workflows so wichtig, sie zeigen dass du *reasonable measures* getroffen hast. Wir dokumentieren das Setup auditierbar. Bei spezifischen Branchen (Steuer, Medizin, Recht) ziehen wir vor Production einen Fach-Anwalt hinzu, das ist Teil des Pakets.

DSGVO bei externen Tool-Calls?

Wenn der Agent zu OpenAI oder Anthropic geht, gelten deren AV-Verträge plus EU-Hosting-Optionen. Bei API-Calls zu deinen eigenen Systemen bleiben die Daten in deiner Infrastruktur. Bei Drittanbieter-APIs (z.B. ein externes Buchungs-System) gehen Daten dorthin, wir machen vor Production die DSGVO-Mapping pro Tool und legen AV-Verträge offen.

Nächster Schritt

Erstgespräch 30 Minuten kostenlos.

Wir schauen welche Workflows du automatisieren willst, welche Aktionen sensibel sind und ob Agentic AI für deinen Fall der richtige Hebel ist. Ehrliche Einschaetzung statt Sales-Pitch.

Andere Kategorie · Beratung

Potenzialanalyse

Wir analysieren dein Geschäft auf KI-Hebel: wo lohnt sich Automatisierung, wo nicht? Schriftlicher Bericht mit Empfehlungen. Ab 990 EUR.

Weiter zu · Integration

CRM- und ERP-Kopplung

Integration in HubSpot, Salesforce, Pipedrive, Shopify, SAP, DATEV oder Lexware. Via MCP oder REST API, mit Audit-Trail. Setup ab 2.500 EUR.