Crédit image à la une : Jess Bright – Dribbble
La technologie d’interface vocale est partout, peut-être même déjà chez vous. Les assistants vocaux tels qu’Alexa (Amazon), Siri (Apple), Cortana (Microsoft) et Google Assistant contrôlent plus de 3 milliards d’appareils, un chiffre qui devrait plus que doubler d’ici 2023.
La technologie d’interface vocale est partout
Ces profils familiers représentent la face publique des interfaces utilisateur vocales. Mais les VUI ne sont pas uniquement destinées aux enceintes connectées. Cette technologie améliore des processus opérationnels essentiels, du contrôle mains libres sur les lignes de production à la réservation d’une salle de réunion. Voici ce qu’il faut savoir sur la technologie d’interface vocale : ce qu’elle permet et comment elle fait évoluer la société dans son entièreté.
Définition d’une Voice User Interface
L’interaction humaine orale avec les ordinateurs
La VUI ou « Voice User Interface », en français une interface utilisateur vocale, rend possible l’interaction humaine orale avec les ordinateurs en utilisant la reconnaissance vocale. L’objectif : comprendre les commandes/questions et y répondre en utilisant le text-to-speech* pour lancer une réponse. Un dispositif de commande vocale (VCD) est un appareil doté d’une interface utilisateur vocale.
*Le text-to-speech consiste à transformer un texte en une transcription phonétique.
Des interfaces vocales utilisateur (VUI) sont ajoutées aux automobiles, à la domotique, aux systèmes d’exploitation des ordinateurs, aux appareils ménagers et aux télécommandes des téléviseurs. Ces VUI constituent le principal moyen d’interaction avec les assistants virtuels sur les smartphones et les enceintes connectées. Ces systèmes dotés d’une interface utilisateur entièrement vocale permettent aux appelants de formuler des demandes et des réponses sans avoir à appuyer sur aucun bouton.
Cathy Pearl -Designer de Voice User Interfaces chez Google- explique le design conversationnel :
Des précurseurs aux utilisateurs
Selon l’International Computer Science Institute, la naissance de la reconnaissance automatique de la parole remonte en 1952, lorsque Bell Labs a lancé un appareil appelé Audrey. Audrey était capable de comprendre les chiffres vocalisés de zéro à neuf avec une précision de 99 %, ce qui limitait son utilisation à la composition de numéros de téléphone par commande vocale. Cet appareil coûtait une fortune et occupait un rack de près de deux mètres. Audrey n’était pas un produit de consommation, mais elle a servi de démonstration de principe.
En 2007, un article de CNN a divulgué que des entreprises comme Google et Apple essayaient de créer des fonctionnalités de reconnaissance vocale. Depuis, le monde a été témoin d’une variété de dispositifs de commande vocale. Google a créé un moteur de reconnaissance vocale appelé Pico TTS et Apple a publié Siri. Les dispositifs de commande vocale sont de plus en plus disponibles et les moyens innovants pour utiliser la voix humaine sont toujours en cours de création car ils présentent de nombreux avantages.
La folle histoire de Siri par Luc Julia :
Les avantages de la VUI
Deux principaux facteurs s’imposent tout naturellement quand on évoque la VUI :
- Rapidité et intuitivité
Parler (ou dicter) des messages est plus rapide que de taper ou de rechercher manuellement. Pour 43% des sondés dans le rapport “Connecting the dots. Consumer trends that will shape 2020” , la motivation d’utilisation de la recherche vocale est la rapidité d’action. Cela permet aux utilisateurs de chercher une information, de passer une commande vocale ou d’envoyer un message les mains libres. Enfin, cela apporte une forte intuitivité à l’utilisateur puisque l’interface vocale permet d’éviter des lacunes causées par les communications visuelles.
- Accessibilité et liberté
L’enjeu de l’interface utilisateur vocale est d’autant plus important pour les personnes en situation de handicap qu’elles cherchent des solutions pour se libérer des contraintes quotidiennes. Par exemple, pour surfer sur le web sans écran ni clavier,, répondre au téléphone sans entendre le moindre son… Le handicap touche plus d’1 milliard de personnes sur Terre.
C’est également essentiel pour les personnes concernées par l’illectronisme ou encore les seniors. Les seniors peuvent faire face à des contraintes dues à la diminution de certaines de leurs capacités mais également à des difficultés pour apprendre et maîtriser l’utilisation de nouvelles technologies. Le champ d’action de la reconnaissance vocale est donc, très large et crucial.
Une interface utilisateur vocale conçue pour le grand public met l’accent sur la facilité d’utilisation et fournit aides et conseils aux utilisateurs par le biais de technologies qui ne cessent de se développer.
Le physicien Stephen Hawking parle de son logiciel de dictée ACAT (Assistive Context-Aware Toolkit) :
La Voice User Interface : comment ça marche ?
Bien entendu, plusieurs technologies ont été mises au point afin de répondre de façon optimale à l’échange entre l’utilisateur et l’appareil.
La captation de la voix
C’est la première étape puisque c’est par le biais de la voix que la machine commence sa captation, avant même de répondre. Ici, les mots clés seront les déclencheurs de l’échange entre l’utilisateur et l’interface vocale.
La reconnaissance automatique de la parole (RAP)
Cette technologie assure l’analyse de la voix humaine. L’interface utilisateur vocale peut donc faire la transcription textuelle de la commande vocale. Il existe deux types de reconnaissance automatique de la parole :
- La reconnaissance monolocuteur qui concerne une seule voix. Elle est généralement utilisée par les entreprises car elle permet d’inscrire le vocabulaire d’un métier dans le dictionnaire du logiciel.
- La reconnaissance multilocuteur qui concerne plusieurs utilisateurs et s’adapte aux commandes du quotidien.
Le text-to-speech (TTS)
Le TTS ou la synthèse vocale en français, est une technique informatique de synthèse sonore qui permet de créer de la parole artificielle à partir de n’importe quel texte. Pour obtenir ce résultat, elle s’appuie à la fois sur des techniques de traitement linguistique, notamment pour transformer le texte orthographique en une version phonétique prononçable sans ambiguïté, et sur des techniques de traitement du signal pour transformer cette version phonétique en son numérisé écoutable sur un haut parleur.
L’intelligence artificielle
“L’IA est la plus grande priorité technologique et la santé est son application la plus urgente.” C’est en ces termes que Satya Nadella, PDG de Microsoft, a commenté en avril 2021 l’acquisition de Nuance, pionnier de l’intelligence artificielle (IA) et de la reconnaissance vocale. L’intelligence artificielle est un processus qui a amélioré la reconnaissance automatique de la parole et la synthèse vocale. Ces différentes techniques permettent aux machines d’imiter l’intelligence humaine qui, grâce à ce processus, agissent comme les humains. On parle alors d’interaction homme-machine*.
Les Dimensions affectives et sociales dans les interactions parlées par Laurence Devillers – Professeure en Intelligence Artificielle (IA) :
*IHM : Initiales de interaction homme-machine, désigne un ensemble de moyens et outils informatiques mis en place pour favoriser la communication entre un être humain et une machine.
L’utilisation de l’AI par les Chatbots* :
*Chatbot : Le chatbot est un robot conversationnel paramétré pour accomplir une tâche précise comme délivrer une réponse (pré-enregistrée) à un instant T.
Bien entendu, le monde de l’entreprise s’est saisi de ces différentes technologies car elles sont une opportunité pour les marques en 2022. Cette nouvelle façon de communiquer leur donne la possibilité de capter un public encore plus large et de développer leur business. Une nouvelle façon de communiquer et un moyen d’accompagner les changements de comportement des consommateurs.
“Les améliorations du traitement du langage naturel ont ouvert la voie à une révolution dans la manière dont nous interagissons avec la technologie : de plus en plus, nous contournons les écrans par le biais de la voix” – CES 2017 : Principales tendances, J.Walter Thompson Intelligence.
Exemples de l’utilisation de la VUI en entreprises
Alors que les VUI les plus utilisées sont celles des téléphones mobiles et des enceintes connectées, les entreprises utilisent la technologie de l’interface utilisateur vocale pour :
- Faciliter la collaboration ;
- Multiplier les occasions de promouvoir leur image de marque ;
- Améliorer les expériences utilisateur pour leurs clients et bien plus encore.
Voici quelques exemples de mises en œuvre :
- Les fabricants utilisent la VUI pour contrôler les lignes de production et adopter l’Internet des Objets industriel local tout en continuant à utiliser leurs outils.
- Les enseignants utilisent en cours des appareils VUI qui répondent aux questions des étudiants, fournissent instantanément des informations et constituent même une aide à l’enseignement des langues.
- Les professionnels de la santé apprécient les systèmes de dictée vocale mains libres qui simplifient la création des dossiers médicaux.
- Ajouter une VUI à des systèmes informatiques sur serveurs permet aux salariés de réserver des salles de réunion, de déplacer des rendez-vous et d’enregistrer des notes dans un système sûr et fermé, sans toucher aucun terminal informatique.
Les entreprises utilisent les VUI principalement au bureau pour simplifier les processus internes, et dans leurs produits pour créer une meilleure expérience utilisateur. Dans une application comme dans l’autre, la voix dédiée peut renforcer la reconnaissance, la fidélité et l’engagement entre l’entreprise et la personne. Dans ce cadre, les entreprises se dotent de stratégie de Voice UX mettant, là encore, l’utilisateur au cœur du processus.
Qu’est ce que l’internet des objets :
Concevoir une Voice UX Design
L’aspect « Voice Marketing » est le résultat d’une consultation avec la marque et doit respecter à la fois le discours de la marque et le ton utilisé (Cf. Tone of voice) dans ses autres canaux de communication.
En ce qui concerne la VUX*, elle est plutôt le résultat d’une réflexion interne qui s’adapte aux objectifs de la marque. Certains principes sont incontournables, quelle que soit l’expérience et certains sont basés sur le bon sens. Par exemple, il est contre-productif d’offrir plus de trois options à l’utilisateur au sein d’une même interaction, dans le sens où l’utilisateur aura du mal à en retenir plus de trois.
*VUX & VUI : la VUI représente la manière dont est bâtie et orchestrée l’interface vocale, la VUX englobe de manière plus générale l’expérience à transmettre au travers de cette interface.
Les principes de la Voice Design par Ben Sauer :
La partie recherche est une étape majeure dans la création d’une application. Elle est incluse dans le processus de conception, elle doit être méthodique et axée sur l’utilisateur final. En plusieurs étapes, de nombreuses hypothèses seront testées. Cela permet de déterminer la nature de l’application :
- d’un point de vue émotionnel ;
- d’un point de vue fonctionnel ;
- le ton et la nature de la voix.
Elle couvre également de nombreuses considérations et pré-requis, à savoir :
- le choix de la voix (acteur humain ou pas) ;
- l’univers sonore car il s’exprime à travers la musique, les effets sonores, les écouteurs (l’équivalent audio des icônes), l’ASMR…
Comme mentionné ci-dessus, il est également important de respecter les règles de conception conversationnelle afin de rendre l’expérience utilisateur aussi agréable que possible.
Conclusion
L’interface utilisateur vocale (VUI) a littéralement bousculé l’interaction homme machine. Les chatbots, les assistants personnels et les appareils intelligents font aujourd’hui partie de notre quotidien. Les appareils à commande vocale ont eu un impact sur nos téléphones portables, nos ordinateurs, nos montres intelligentes, nos voitures et même nos maisons grâce à des sociétés de sécurité résidentielle intelligentes. Maintenant, la reconnaissance vocale s’applique aux domaines de la finance, des ressources humaines, du marketing, de la criminalité et même des transports publics. L’objectif étant de réduire les coûts des entreprises, de simplifier les processus, d’améliorer l’expérience des utilisateurs (UX) et d’accroître l’efficacité globale. Mais pour continuer à faire de la VUI un outil efficace, il faut indiscutablement passer par la mise en place d’une bonne stratégie de Voice UX Design car, elle seule, peut garantir la satisfaction utilisateurs et une saine évolution de leur complicité.
Bibliographie et webographie
Designing Voice User Interfaces par Cathy Pearl – Edition Oreilly
Comment créer une interface vocale avec laquelle les gens peuvent réellement converser ? Que vous conceviez une application mobile, un jouet ou un appareil comme un assistant domestique, ce livre vous guide à travers les principes de base de la conception de VUI, vous aide à choisir le bon moteur de reconnaissance vocale et vous montre comment mesurer les performances de votre VUI et à l’améliorer.
Podcasts :
Voicebot Podcast Episode 30 – Cathy Pearl Author of Designing Voice User Interfaces :
Lire aussi :
Je vous conseille aussi le livre “Voice user interface design” par Giangola, Cohen et Balogh. Plus vieux que celui de Pearl mais plus détaillé et orienté callbots.