Indexez vos rushes, recherchez par le sens, assemblez vos séquences narratives — en quelques secondes au lieu de plusieurs heures.
5 couches d'analyse combinées pour une compréhension profonde du contenu
Extraction keyframes à 1fps, embeddings SigLIP 2 SO400M (1152 dimensions). Recherche visuelle par description textuelle.
InsightFace / ArcFace pour la détection et le clustering. Photos de référence pour l'identification automatique.
WeSpeaker / pyannote pour les embeddings vocaux 256d. Détection automatique depuis les scènes de dialogue.
Voxtral STT avec diarisation. Résolution automatique des locuteurs via les clusters vocaux.
Retrieval parallèle (transcript + visuel + scènes + personnes) → fusion RRF → reranking LLM.
Agent Claude Sonnet autonome. Recherche itérative, assemblage narratif, export FCPXML en un clic.