Reachy Mini : Hugging Face rend la conversation robotique 100 % locale

Publié le 27 mai 2026 à 18h07

D'après Hugging Face (27 mai 2026 à 02h00)

Résumé

Hugging Face propose désormais une configuration permettant de faire tourner la pile conversationnelle de Reachy Mini entièrement en local, sans cloud ni clés d’API. En s’appuyant sur une cascade VAD → STT → LLM → TTS servie via une API temps réel et sur llama.cpp pour l’IA générative, l’ensemble du traitement reste sur la machine de l’utilisateur.

Les faits

Hugging Face décrit une nouvelle approche pour Reachy Mini : après avoir assemblé le robot, l’utilisateur installe l’application de conversation et peut désormais « commencer à lui parler » sans envoyer de données vers un serveur distant. Jusqu’ici, l’audio devait être transmis à un serveur, mais le billet précise que « ce n’est plus le cas » et détaille un mode de fonctionnement entièrement local. La pile logicielle repose sur un pipeline de type « speech-to-speech », présenté comme une cascade VAD → STT → LLM → TTS. Hugging Face explique que cette cascade expose une interface WebSocket compatible avec une API temps réel de type « /v1/realtime ». Une fois le backend lancé, il suffit de pointer le robot vers ce service depuis l’interface utilisateur, ce qui permet de faire transiter toute la conversation au sein de l’environnement local. L’équipe met en avant les avantages de cette approche en soulignant que les cascades sont aujourd’hui « l’option la plus flexible dans le paysage open source » et, avec les bons composants, « également la plus rapide ». Les auteurs indiquent recommander certains composants, tout en rappelant que l’intérêt d’une cascade est de pouvoir les remplacer facilement, dans un contexte où « de nouveaux modèles sortent chaque semaine ». Pour servir le modèle de langage, Hugging Face s’appuie sur llama.cpp. Le guide explique que l’on peut l’installer simplement via des gestionnaires de paquets comme « brew install llama.cpp » ou « winget install llama.cpp », avant de lancer la commande « llama-server -hf ggml-org/gemma-4-E4B-it-GGUF -np 2 -c 65536 -fa on --swa-full ». Le billet précise que la première exécution télécharge le modèle, tandis que les lancements suivants sont rapides, ce qui facilite le redémarrage du service local.

Pourquoi c’est important

En proposant une pile conversationnelle 100 % locale pour Reachy Mini, Hugging Face renforce l’idée qu’un robot domestique ou de laboratoire peut fonctionner sans dépendre d’un serveur distant. Le billet insiste sur l’absence de cloud, de clés d’API et sur le fait qu’« aucune donnée ne quitte la machine », répondant ainsi à des préoccupations fortes en matière de confidentialité et de souveraineté des données. Cette approche illustre aussi la maturité de l’écosystème open source autour des pipelines de voix et des grands modèles de langage. En misant sur une cascade VAD → STT → LLM → TTS et sur une compatibilité avec des API temps réel, tout en permettant de remplacer facilement les composants au rythme des nouveaux modèles, Hugging Face se positionne au cœur d’un mouvement visant à rendre l’IA embarquée plus modulaire, flexible et accessible aux développeurs comme aux fabricants de robots.

Questions fréquentes

Qu’apporte la nouvelle configuration de Reachy Mini ?

Elle permet de faire tourner la conversation du robot entièrement en local, sans cloud, sans clés d’API et sans que des données quittent la machine de l’utilisateur.

Comment est structurée la pile conversationnelle ?

Elle repose sur une cascade « speech-to-speech » de type VAD → STT → LLM → TTS, exposée via un WebSocket compatible avec une API temps réel « /v1/realtime ».

Quel outil est utilisé pour servir le modèle de langage ?

Le billet indique que le modèle de langage est servi avec llama.cpp, lancé par la commande « llama-server » fournie en exemple.

Doit-on encore envoyer l’audio du robot vers un serveur distant ?

Non. Le billet explique qu’auparavant l’audio devait être envoyé à un serveur, mais que ce n’est plus nécessaire grâce à la nouvelle pile locale.

Peut-on changer les composants de la cascade ?

Oui. Hugging Face souligne que l’intérêt d’une cascade est de pouvoir remplacer les composants, dans un contexte où de nouveaux modèles sortent chaque semaine.

Source

Hugging Face

Auteur

Rédaction IA-Medias

Rédaction spécialisée dans la veille et l'analyse de l'actualité de l'intelligence artificielle, des puces IA, des robots, des agents IA et de la recherche.