Sommaire
Bienvenue dans notre glossaire de l'orchestration IA vocale. L'intégration de l'intelligence artificielle dans les systèmes de téléphonie a créé un nouveau lexique, mêlant des termes de télécoms, de traitement du signal et de machine learning. Ce guide complet a pour but de démystifier 50 termes essentiels pour toute personne travaillant sur des projets d'agents vocaux IA. Chaque définition est conçue pour être claire, précise et accompagnée d'un exemple concret pour vous aider à maîtriser le vocabulaire de l'orchestration IA.
Concepts Fondamentaux de l'IA et de la Voix
Cette section couvre les briques de base qui composent tout système d'IA vocale moderne. Comprendre ces concepts est la première étape pour construire ou évaluer un agent conversationnel.
STT (Speech-to-Text)
Speech-to-Text: Le STT, ou transcription de la parole en texte, est le processus technologique qui convertit un signal audio de parole en une représentation textuelle. C'est la "bouche" de l'utilisateur pour l'IA, permettant à la machine de comprendre ce qui est dit. La précision (mesurée par le Word Error Rate - WER) et la vitesse sont ses métriques de performance clés.
Exemple : Lorsqu'un client appelle un agent vocal IA pour prendre un rendez-vous, le système STT transcrit en temps réel la phrase "Je voudrais une table pour deux personnes demain soir" en texte, que le LLM pourra ensuite traiter.
TTS (Text-to-Speech)
Text-to-Speech: Le TTS, ou synthèse vocale, est la technologie inverse du STT. Elle convertit une chaîne de texte en parole audible, en imitant la voix humaine. Les systèmes TTS modernes visent un rendu naturel, avec une prosodie et une intonation adaptées au contexte, ce qui est crucial pour l'expérience utilisateur.
Exemple : Après avoir trouvé une disponibilité, l'agent vocal IA utilise le TTS pour répondre : "Parfait, j'ai une table pour deux demain à 20h. Est-ce que cela vous convient ?". La qualité du TTS influence directement la perception de l'intelligence et de l'empathie de l'agent.
LLM (Large Language Model)
Large Language Model: Un LLM est un modèle d'intelligence artificielle de grande taille, entraîné sur d'immenses quantités de données textuelles pour comprendre et générer du langage humain. C'est le "cerveau" de l'agent vocal, capable de comprendre des requêtes complexes, de maintenir le contexte d'une conversation et de formuler des réponses cohérentes et pertinentes. Des modèles comme GPT-4, Llama 3 ou Mistral en sont des exemples populaires.
Exemple : Le texte "Je voudrais une table pour deux personnes demain soir" (provenant du STT) est envoyé au LLM. Le LLM analyse l'intention (réservation), extrait les entités (nombre: 2, date: demain soir) et génère une réponse textuelle appropriée, qui sera ensuite envoyée au TTS.
Orchestration IA
AI Orchestration: L'orchestration IA est le processus de coordination et de gestion de multiples composants IA (STT, LLM, TTS), de services externes (API de réservation, CRM) et de systèmes de téléphonie (SIP, RTP) pour accomplir une tâche complexe. C'est la "tour de contrôle" qui assure que chaque module fonctionne en harmonie, gère les flux de données en temps réel et optimise la performance globale, notamment la latence. Ce glossaire sur l'orchestration IA vise à clarifier tous les composants impliqués.
Exemple : Une plateforme d'orchestration IA reçoit le flux audio d'un appel, l'envoie au STT, transmet le texte au LLM, reçoit la réponse du LLM, l'envoie au TTS, et diffuse la réponse audio au client, tout en gérant potentiellement une interruption (barge-in) du client. Pour en savoir plus, consultez notre guide sur l'orchestration IA.
EAGI (Embodied AI General Intelligence)
Embodied AI General Intelligence: L'EAGI est un concept qui étend l'AGI (voir ci-dessous) en y ajoutant la notion d'un "corps" ou d'une incarnation. Cette incarnation, qui peut être un robot ou une présence virtuelle, permet à l'IA d'interagir directement avec le monde physique ou un environnement simulé. Dans le contexte de l'IA vocale, cela peut se référer à une IA capable de contrôler des objets connectés (IoT) via des commandes vocales.
Exemple : Un agent vocal EAGI pourrait non seulement prendre une commande de pizza par téléphone, mais aussi envoyer une commande au four à pizza connecté pour commencer la cuisson au moment optimal.
AGI (Artificial General Intelligence)
Artificial General Intelligence: L'AGI, ou Intelligence Artificielle Générale, est un type hypothétique d'IA qui possède la capacité de comprendre ou d'apprendre n'importe quelle tâche intellectuelle qu'un être humain peut accomplir. Contrairement aux IA "étroites" actuelles (spécialisées dans une tâche comme le STT ou le jeu d'échecs), une AGI aurait une intelligence flexible et adaptable.
Exemple : Un agent de centre d'appels AGI ne se contenterait pas de suivre un script ; il pourrait comprendre l'état émotionnel du client, improviser des solutions créatives à des problèmes inédits et apprendre de chaque interaction pour améliorer ses futures performances dans n'importe quel domaine.
Contexte
Context: Dans une conversation, le contexte représente l'ensemble des informations accumulées qui permettent de comprendre les échanges actuels. Pour un LLM, cela inclut l'historique de la conversation, les informations sur l'utilisateur (issues d'un CRM, par exemple) et le prompt système. La gestion efficace du contexte est cruciale pour des conversations fluides et cohérentes.
Exemple : Si un client dit "Et pour la boisson ?", l'IA doit utiliser le contexte (le fait qu'une réservation de restaurant est en cours) pour comprendre que la question porte sur les boissons disponibles dans ce restaurant, et non une question générale.
Tokens
Tokens: Les tokens sont les unités de base que les LLM utilisent pour traiter le texte. Un token peut correspondre à un mot, une partie de mot, un caractère ou un signe de ponctuation. La "fenêtre de contexte" d'un LLM, c'est-à-dire la quantité d'informations qu'il peut traiter en une fois, est mesurée en tokens.
Exemple : La phrase "J'aime l'orchestration IA" peut être décomposée en tokens comme ["J'", "aime", "l'", "orchestration", "IA"]. Le coût d'utilisation des API de LLM est souvent facturé au nombre de tokens en entrée et en sortie.
Pipeline
Pipeline: Un pipeline, dans le contexte de l'IA vocale, est la séquence d'étapes de traitement que les données (audio et texte) suivent. Il décrit le flux, de la réception du son brut à la génération de la réponse audio. L'optimisation de ce pipeline est l'objectif principal de l'orchestration IA.
Exemple : Un pipeline typique d'agent vocal est : Audio In -> VAD -> STT -> LLM -> TTS -> Audio Out. Chaque flèche représente un transfert de données qui doit être aussi rapide que possible.
Modèles et Algorithmes d'IA
Cette section de notre lexique sur l'intelligence artificielle en téléphonie se concentre sur les noms de modèles, d'outils et de techniques spécifiques que vous rencontrerez en construisant un agent vocal.
Whisper
Whisper: Whisper est un modèle de reconnaissance vocale (STT) open-source développé par OpenAI. Il est réputé pour sa très grande précision sur une large gamme de langues et d'accents, car il a été entraîné sur un vaste ensemble de données multilingues et multitâches (680 000 heures). Cependant, sa version originale n'est pas optimisée pour le temps réel.
Exemple : Utiliser le modèle `large-v3` de Whisper pour transcrire des enregistrements d'appels post-facto afin d'analyser la qualité du service, où la précision est plus importante que la latence.
STT engine
STT engine: STT engine est une réimplémentation optimisée du modèle Whisper par l'ingénieur Guillaume Lample. Elle utilise des techniques comme la quantisation (INT8) et le framework CTranslate2 pour offrir une transcription jusqu'à 4 fois plus rapide et une utilisation de la mémoire VRAM divisée par 2, avec une précision quasi-identique. Cela le rend bien plus adapté aux applications temps réel.
Exemple : Intégrer STT engine dans une boucle d'orchestration IA pour obtenir des transcriptions rapides avec une latence suffisamment faible pour une conversation fluide.
Comparaison : Whisper vs STT engine
| Critère | Whisper (OpenAI) | STT engine |
|---|---|---|
| Vitesse | Base | Jusqu'à 4x plus rapide |
| Utilisation VRAM | Élevée | ~2x plus faible |
| Dépendances | PyTorch | CTranslate2, plus léger |
| Précision | Très élevée | Quasiment identique |
| Cas d'usage | Transcription hors-ligne | Transcription temps réel, streaming |
xtts" itemprop="name">mixael-TTS
mixael-TTS: mixael-TTS est un modèle de synthèse vocale (TTS) de pointe, développé à l'origine par Coqui.ai et maintenant open-source. Il est reconnu pour sa capacité de "zero-shot voice cloning", c'est-à-dire cloner une voix et son style à partir d'un simple échantillon audio de quelques secondes. Il est également multilingue, ce qui en fait un choix très puissant pour des agents vocaux personnalisés.
Exemple : Utiliser un enregistrement de 6 secondes de la voix du PDG de l'entreprise pour que l'agent vocal d'accueil puisse répondre avec sa voix, créant une expérience de marque unique.
CoquiTTS
CoquiTTS: CoquiTTS était une bibliothèque open-source populaire offrant une collection de modèles de TTS pré-entraînés et des outils pour entraîner ses propres modèles. Bien que la société Coqui.ai ait cessé ses activités, la bibliothèque et ses modèles, comme le fameux mixael-TTS, restent des ressources précieuses pour la communauté.
Exemple : Un développeur utilise le framework CoquiTTS pour fine-tuner un modèle de TTS sur un corpus de données spécifique afin de créer une voix de marque unique pour une application.
ollama" itemprop="name">LLM backend
LLM backend: LLM backend est un outil open-source qui simplifie grandement l'exécution locale de grands modèles de langage (LLM) comme Llama 3, Mistral ou Phi-3. Il empaquette les poids des modèles, la configuration et les données dans un format simple (Modelfile) et fournit une API REST facile à utiliser. C'est un excellent outil pour prototyper et déployer des agents IA en environnement on-premise.
Exemple : Lancer un agent conversationnel sur son propre serveur en exécutant `ollama run mistral` et en connectant son application à l'API locale sur le port 11434.
Quantisation
Quantization: La quantisation est une technique d'optimisation qui consiste à réduire la précision des nombres (poids) utilisés dans un modèle de deep learning. Par exemple, passer de nombres à virgule flottante de 32 bits (FP32) à des entiers de 8 bits (INT8) ou 4 bits (FP4). Cela permet de réduire considérablement la taille du modèle en mémoire (VRAM), d'accélérer l'inférence, au prix d'une perte de précision souvent négligeable.
Exemple : Quantiser le modèle `large-v3` de Whisper en INT8 avec STT engine pour le faire tourner sur un GPU avec 8 Go de VRAM, ce qui serait impossible avec le modèle FP16 original qui en nécessite plus de 10 Go.
Fine-tuning
Fine-tuning: Le fine-tuning (ou affinage) est le processus d'entraînement supplémentaire d'un modèle pré-entraîné (comme un LLM) sur un ensemble de données plus petit et spécifique à une tâche. Cela permet d'adapter le comportement du modèle à un domaine particulier, d'améliorer ses performances sur une tâche précise ou de lui apprendre un style ou une personnalité.
Exemple : Fine-tuner le modèle Mistral 7B sur un corpus de conversations de support technique pour créer un chatbot spécialisé qui connaît la terminologie et les procédures spécifiques de l'entreprise.
RAG (Retrieval-Augmented Generation)
Retrieval-Augmented Generation: Le RAG est une technique qui améliore les capacités d'un LLM en lui donnant accès à une base de connaissances externe. Avant de générer une réponse, le système RAG recherche les informations les plus pertinentes dans une base de données (souvent une base de données vectorielle), puis injecte ces informations dans le prompt du LLM. Cela permet de baser les réponses sur des données factuelles, à jour et spécifiques, réduisant ainsi les "hallucinations".
Exemple : Un agent vocal IA utilise le RAG pour répondre à la question "Quels sont les ingrédients de votre pizza Regina ?". Le système recherche "pizza Regina" dans la base de données du menu, trouve "tomate, fromage, jambon, champignons", et passe cette information au LLM pour qu'il formule une réponse naturelle.
Embedding
Embedding: Un embedding (ou plongement lexical) est une représentation vectorielle (une liste de nombres) d'un morceau de texte (mot, phrase, document) dans un espace à plusieurs dimensions. L'idée est que des textes ayant des significations similaires auront des vecteurs proches dans cet espace. Les embeddings sont la base du RAG et de la recherche sémantique.
Exemple : Pour implémenter le RAG, chaque plat du menu est d'abord converti en un vecteur d'embedding et stocké. Lorsqu'un client pose une question, sa question est également convertie en embedding, et le système recherche les embeddings de plats les plus proches pour trouver l'information pertinente.
Paramètres de Génération des LLM
Contrôler un LLM ne se résume pas à lui envoyer du texte. Ces paramètres, présents dans
Prêt à déployer votre Agent Vocal IA ?
Solution on-premise, latence 335ms, 100% RGPD. Déploiement en 2-4 semaines.
Demander une Démo Guide InstallationQuestions Fréquentes
Un agent vocal IA est un assistant conversationnel capable de comprendre et de répondre à la voix humaine en temps réel, intégré à un système d’orchestration pour gérer des appels téléphoniques automatisés. Il combine reconnaissance vocale, traitement du langage naturel et synthèse vocale pour interagir de façon fluide avec les utilisateurs.
L’orchestration IA coordonne plusieurs composants d’IA — comme la reconnaissance vocale, les modèles de langage et les bases de connaissances — pour créer des flux d’appels intelligents et adaptatifs. Cela réduit la latence, diminue les coûts d’exploitation et permet une personnalisation bien supérieure aux IVR classiques.
L’auto-hébergement offre un meilleur contrôle sur la sécurité des données, la latence et les coûts à long terme, surtout pour les entreprises traitant des informations sensibles. Il permet aussi de personnaliser les modèles et d’éviter les frais récurrents des services cloud propriétaires.
Oui, des modèles open-source comme Whisper pour la reconnaissance vocale ou Llama pour la compréhension du langage peuvent être intégrés dans une orchestration IA. Cela réduit la dépendance aux fournisseurs externes et permet une adaptation fine aux besoins spécifiques.
Une latence faible — idéalement inférieure à 300 ms — est cruciale pour garantir une interaction naturelle et éviter les décalages dans la conversation. Des architectures optimisées, comme le streaming continu et le traitement local, aident à atteindre ces performances.
Il fournit des définitions claires et concises des 50 termes techniques clés, facilitant la compréhension des composants, protocoles et bonnes pratiques. Cela accélère l’intégration et le développement de solutions vocales performantes, surtout dans des environnements open-source ou hybrides.