Intelligence vidéo par IA pour la post-production TV

Indexez vos rushes, recherchez par le sens, assemblez vos séquences narratives — en quelques secondes au lieu de plusieurs heures.

Recherche sémantique Reconnaissance faciale Identification vocale Storytelling IA Export FCPXML

Pipeline RAG multi-modal

5 couches d'analyse combinées pour une compréhension profonde du contenu

🎬

Extraction keyframes à 1fps, embeddings SigLIP 2 SO400M (1152 dimensions). Recherche visuelle par description textuelle.

👤

InsightFace / ArcFace pour la détection et le clustering. Photos de référence pour l'identification automatique.

🎙

WeSpeaker / pyannote pour les embeddings vocaux 256d. Détection automatique depuis les scènes de dialogue.

📝

Voxtral STT avec diarisation. Résolution automatique des locuteurs via les clusters vocaux.

🔍

Retrieval parallèle (transcript + visuel + scènes + personnes) → fusion RRF → reranking LLM.

📖

Agent Claude Sonnet autonome. Recherche itérative, assemblage narratif, export FCPXML en un clic.

modalités fusionnées
vidéo · audio · transcript · visages

granularités temporelles
plans · scènes · séquences

On-prem

déployable sans cloud
souveraineté des données

Backbone

temporel traçable
requête → coupe → frame source

Multi-LLM

orchestration
Claude · Gemini · Voxtral