https://api.avaluma.ai nutzen.
Der Avatar-Server
Der Avatar-Server ist die Rendering-Engine von Avaluma AI. Er läuft in einem Docker-Container mit direktem Zugriff auf eine NVIDIA-GPU und erledigt Folgendes:- Lädt deine
.hvia-Avatar-Dateien beim Start aus dem Verzeichnisassets/avatars/ - Empfängt Audio vom LiveKit-Agent über das
avaluma-livekit-plugin - Rendert den fotorealistischen Avatar Bild für Bild und animiert Lippenbewegung und Mimik synchron zum Audio
- Veröffentlicht den resultierenden Video-Track zurück in den LiveKit-Raum, wo jeder verbundene Teilnehmer ihn abonnieren kann
| Option | URL |
|---|---|
| Selbst gehostet | http://localhost:8080 (oder deine Domain mit dem Reverse-Proxy) |
| Avaluma Managed | https://api.avaluma.ai |
Der optionale Caddy-Reverse-Proxy aus
avatar-server/reverse_proxy/ stellt automatisch ein TLS-Zertifikat für deine Domain aus und erneuert es — so wird die selbst gehostete Option ohne zusätzliche Konfiguration produktionsreif.Der LiveKit-Agent
Der LiveKit-Agent betreibt eine vollständige Sprach-KI-Pipeline in einem Docker-Container. Er hört auf das Mikrofon-Audio der Teilnehmer im LiveKit-Raum und steuert eine Konversation durch folgende Stufen:AgentSession-Konfiguration in agent-1.py austauschbar:
- STT — AssemblyAI
universal-streamingtranskribiert die Sprache des Teilnehmers in Echtzeit - LLM — OpenAI
gpt-4.1-minierzeugt eine Antwort auf das Transkript - TTS — Cartesia
sonic-3synthetisiert die Antwort als Sprach-Audio AvatarSession— dasavaluma-livekit-pluginleitet das TTS-Audio an den Avatar-Server weiter, der den Avatar animiert und das Video zurück in den Raum streamt
Externes Audio (agent-2-Muster)
Der Avatar-Server ist nicht auf dieAgentSession-Pipeline beschränkt. Jeder externe Dienst mit einem gültigen LiveKit-Token kann Audio direkt über einen LiveKit-DataStream auf dem Topic lk.audio_stream an den Avatar streamen. Der Avatar animiert dieses Audio ganz ohne Agent oder AgentSession.
agent-2 demonstriert und ist nützlich, wenn du bereits einen Sprachsynthese-Dienst, ein vorab aufgenommenes Skript oder eine beliebige Audioquelle außerhalb der Standard-Pipeline hast.
Der externe Sender benötigt nur ein LiveKit-Token und das DataStream-Topic
lk.audio_stream — auf der Senderseite ist kein Avaluma-SDK erforderlich.Komponenten-Überblick
| Komponente | Aufgabe | Hosting |
|---|---|---|
| Avatar-Server | GPU-Rendering, Lippensynchronisation, Video-Streaming | Selbst gehostet oder api.avaluma.ai |
| LiveKit-Agent | STT → LLM → TTS Sprach-KI-Pipeline | Selbst gehosteter Docker-Container |
| LiveKit-Raum | Gemeinsame Medienschicht, die beide Komponenten verbindet | LiveKit Cloud oder selbst gehostet |
Mehr erfahren
Avatar-Server
Lerne, wie du GPU-Ressourcen konfigurierst, Avatar-Dateien verwaltest und HTTPS aktivierst.
LiveKit-Agent
Tauche in die Sprach-KI-Pipeline, die Umgebungsvariablen und das Muster für externes Audio ein.
