1. Skript (Claude)
Sprechbarer, VO-optimierter Text als Basis.
Für tägliche Kurzvideos kombiniert man Claude (Skript), Seedance/Veo/Kling (cinematische Szenen), fal OmniHuman oder HeyGen (sprechender Avatar mit Lip-Sync in EINEM Pass), ElevenLabs (Stimme) und Suno (Musik) — zusammengeschnitten via ffmpeg/CapCut. So produziert ein Solo-Creator 1 Video/Tag ohne Kamera.
Für tägliche Kurzvideos kombiniert man Claude (Skript), Seedance/Veo/Kling (cinematische Szenen), fal OmniHuman oder HeyGen (sprechender Avatar mit Lip-Sync in EINEM Pass), ElevenLabs (Stimme) und Suno (Musik) — zusammengeschnitten via ffmpeg/CapCut.
Ein Solo-Creator produziert damit 1 Video/Tag ohne Kamera. Der Schlüssel ist audio-getriebenes Lip-Sync (OmniHuman): Bild + Audio erzeugen Bewegung und Lip-Sync in einem Schritt — das löst das „starrer Avatar“-Problem.
Jeden Donnerstag um 23:00 Uhr Asia/Ho_Chi_Minh gibt es ein kompaktes Live-Format mit Marktfilter, Praxisfällen, Fragen und klaren nächsten Schritten.
Naechste Session: Donnerstag, 9. Juli 2026 um 23:00 · Asia/Ho_Chi_Minh. Danach geht die Serie im Wochenrhythmus weiter.

Der Stack für 1 Video/Tag ohne Kamera. Preise als Größenordnung, Stand Juli 2026, Anbieterseite maßgeblich.
| Aufgabe | Tool (Empfehlung) | Warum | Preis |
|---|---|---|---|
| Skript / Hook | Claude | Sprechbar, VO-optimiert | €€ |
| Cinematic B-Roll | Seedance (fal) / Veo 3.1 / Kling 3.0 | 1080p, 9:16, Seed-Lock | €€ |
| Sprechender Avatar | fal OmniHuman 1.5 / HeyGen | Körper + Gestik + Lip-Sync in 1 Pass | €€ |
| Voiceover (mehrsprachig) | ElevenLabs v3 | Voice-Lock, 30+ Sprachen | € |
| Musik | Suno v5.5 | Lizenzierbar | € |
| Schnitt / Caption | ffmpeg / CapCut | Captions als PNG-Overlay, Loudnorm | Free/€ |
Der tägliche Produktions-Ablauf, single-shot audio-driven.
Sprechbarer, VO-optimierter Text als Basis.
Voice-Lock für eine konsistente Marken-Stimme.
Bild + Audio → Bewegung + Lip-Sync in EINEM Pass.
Cinematische Szenen in 9:16, Seed-Lock.
Lizenzierbares Musikbett.
Captions als PNG-Overlay, Loudnorm, dann programmatischer Upload.
Was tägliche KI-Videos kaputt macht.
Mit eingespieltem Stack und Locks liegt die reine Rechen-/Renderzeit je nach Länge im Minuten- bis niedrigen Zehnminutenbereich pro Clip; der Engpass ist meist das Rendern von B-Roll und Avatar, nicht die Handarbeit. Für einen täglichen Rhythmus reicht das locker.
Nein. Der ganze Sinn des Stacks ist Produktion ohne Dreh: Der Avatar wird audio-getrieben animiert, die Szenen kommen aus Seedance/Veo/Kling. Ein Referenzbild plus Stimme genügt.
Ja. ElevenLabs deckt 30+ Sprachen mit Voice-Lock ab, sodass dieselbe Marken-Stimme in mehreren Sprachen läuft. Wir richten den mehrsprachigen Voice- und Avatar-Lock ein.
Passende Stacks für andere Rollen — jeweils mit Stack-Tabelle, Workflow und typischen Fehlern.
Solo-Founder holen mit Claude/ChatGPT (Denken + Schreiben), Perplexity (belegte Recherche), Notion AI (Wissen + Docs), Otter/Fireflies (Meetings automatisch protokolliert) und n8n/Make (Automatisierung) das Meiste heraus — ein „Team aus KIs“ für unter 50 €/Monat.
Dev-Teams kombinieren Claude Code (agentisches Coding im Terminal), Cursor (KI-IDE) und GitHub Copilot (Inline-Completion), mit Claude für Architektur/Reviews. So shippt ein kleines Team deutlich schneller — Planung, Implementierung und Review KI-gestützt.
Zurück zum Hub mit der Stack-Übersicht und allen 7 rollenbasierten Stacks.
Wir bauen die Pipeline (inkl. Voice-/Avatar-Lock) und automatisieren die tägliche Produktion.
Wenn Sie einen Prozess konkret priorisieren wollen, reichen wenige Angaben für eine belastbare erste Einschätzung.