ServiceNow-AI teste les ASR face aux clients bilingues

Publié le 10 juin 2026 à 18h08

D'après Hugging Face (9 juin 2026 à 21h38)

Résumé

ServiceNow-AI publie sur Hugging Face un benchmark dédié au code-switching pour évaluer les performances de systèmes de reconnaissance vocale (ASR) de pointe face à des clients bilingues. Le jeu de données couvre quatre paires de langues, plusieurs scénarios RH et IT, et mesure à la fois la précision de transcription et la préservation du sens.

Les faits

ServiceNow-AI consacre un article de blog sur Hugging Face à la question suivante : les agents vocaux peuvent-ils gérer des clients bilingues qui alternent naturellement entre langues au cours d’une même phrase. L’équipe rappelle que « plus de la moitié de la population mondiale parle plus d'une langue » et que le code-switching est courant dans les conversations du quotidien, les centres de contact ou les helpdesks IT. Pour répondre à la demande d’un client dont la base d’utilisateurs est largement bilingue et pratique régulièrement le code-switching, ServiceNow-AI a créé son propre benchmark et jeu de données afin d’évaluer les modèles d’ASR, première brique de tout pipeline d’agent vocal. Les auteurs insistent sur le fait que les erreurs de transcription se propagent dans tous les composants en aval et que, dans les environnements d’entreprise, un ticket mal routé ou une question de politique interne mal comprise peuvent avoir des conséquences opérationnelles réelles. Le benchmark couvre quatre paires de langues jugées les plus pertinentes pour la clientèle visée : espagnol-anglais, français-anglais, français canadien-anglais et allemand-anglais, avec la langue non anglaise comme langue « matrice » et l’anglais inséré à des degrés variables. Les scénarios couvrent un large éventail de situations de Ressources humaines et de gestion des services IT, comme des questions d’employés sur les avantages ou la paie, ainsi que des demandes de support de type réinitialisation de mot de passe, accès VPN ou dépannage d’appareil. Pour mesurer les performances des modèles, ServiceNow-AI retient trois indicateurs : le Word Error Rate (WER), le Semantic Word Error Rate (SWER) et l’Answer Error Rate (AER), afin de capturer à la fois la précision exacte de la transcription et la capacité à préserver le sens pour les tâches en aval. Le benchmark et les données sont publiés via le framework interne d’évaluation des modèles vocaux, AU-Harness, et les auteurs fournissent des résultats pour sept systèmes d’ASR, incluant des Large Audio Language Models, des ASR « frontier » et des modèles open source. La principale conclusion mise en avant est que le coût du code-switching varie fortement selon la paire de langues et le modèle testé, et que ElevenLabs Scribe V2, Gemini 3 Flash et Assembly AI Universal 3-Pro ressortent comme les meilleurs modèles sur les différents indicateurs pour cette tâche.

Pourquoi c’est important

Ce travail met en lumière un angle encore peu étudié de l’IA vocale en entreprise : la capacité des systèmes de reconnaissance automatique de la parole à gérer le code-switching naturel des clients bilingues. En partant de cas concrets de support RH et IT, ServiceNow-AI montre que la simple précision brute ne suffit pas et qu’il faut aussi mesurer la préservation du sens pour les usages métiers. En publiant un benchmark dédié, des données structurées pour quatre paires de langues et des résultats détaillés pour plusieurs systèmes d’ASR, l’initiative fournit un outil de comparaison précieux pour les équipes qui conçoivent des agents vocaux multilingues. Elle souligne également que le surcoût induit par le code-switching dépend à la fois de la paire de langues et du modèle choisi, ce qui rend le choix de l’ASR central pour offrir une expérience fluide et fiable aux utilisateurs bilingues.

Questions fréquentes

Quel est l’objectif du benchmark de ServiceNow-AI sur le code-switching ?

Évaluer comment des systèmes de reconnaissance vocale de pointe gèrent la parole en code-switching chez des clients bilingues, en mesurant précision de transcription et préservation du sens.

Quelles paires de langues sont couvertes par le benchmark ?

Le jeu de données couvre quatre paires : espagnol-anglais, français-anglais, français canadien-anglais et allemand-anglais, avec la langue non anglaise comme langue principale.

Quels types de scénarios métiers sont inclus dans le jeu de données ?

Le benchmark couvre des scénarios de Ressources humaines et de gestion des services IT, comme des questions sur les avantages ou la paie, et des demandes de support technique.

Quels indicateurs de performance sont utilisés pour évaluer les modèles ?

ServiceNow-AI utilise le WER, le Semantic WER (SWER) et l’Answer Error Rate (AER) pour mesurer précision de transcription, préservation du sens et impact sur les tâches en aval.

Quels modèles obtiennent les meilleurs résultats sur ce benchmark ?

Les auteurs indiquent qu’ElevenLabs Scribe V2, Gemini 3 Flash et Assembly AI Universal 3-Pro se distinguent comme les meilleurs modèles sur les différents indicateurs retenus.

Source

Hugging Face

Auteur

Rédaction IA-Medias

Rédaction spécialisée dans la veille et l'analyse de l'actualité de l'intelligence artificielle, des puces IA, des robots, des agents IA et de la recherche.