Oppo ouvre X-OmniClaw, un agent IA Android qui reste sur le smartphone

Publié le 17 mai 2026 à 10h02 — Mis à jour le 22 mai 2026 à 14h05

D'après The Decoder (17 mai 2026 à 09h39)

Résumé

L’équipe Multi-X d’Oppo a publié X-OmniClaw, un agent IA open source qui fonctionne directement sur les appareils Android. Il combine caméra, écran et voix pour exécuter des tâches dans des applications réelles, en s’appuyant sur les capteurs locaux et un modèle de langage en cloud uniquement pour le raisonnement.

Les faits

L’équipe Multi-X d’Oppo a présenté X-OmniClaw comme un agent open source conçu pour fonctionner directement sur les appareils Android. Cet agent exploite la caméra, l’écran et la voix pour accomplir des tâches dans de vraies applications, sans passer par une copie cloud du téléphone. Dans son rapport technique, le centre d’IA d’Oppo oppose clairement cette approche aux plateformes de « cloud phone » comme RedFinger, Wuying d’Alibaba et Tencent Cloud Phone, qui exécutent des agents dans des instances Android virtualisées en centres de données. Ces services ne peuvent pas accéder aux capteurs locaux, aux caméras ni aux données privées, alors que X-OmniClaw s’exécute sur l’appareil physique. La logique centrale de perception, de contrôle et d’interaction avec les applications réside sur le téléphone. Un modèle de langage en cloud n’est sollicité que comme « carburant » pour le raisonnement de haut niveau. Le rapport mentionne des composants comme un modèle de grounding et un OCR embarqués pour détecter les éléments d’interface cliquables. Un modèle vision-langage interprète d’abord la scène et la requête utilisateur avant de déclencher des actions. Pour la mémoire à long terme, X-OmniClaw condense les données locales en entrées sémantiques. Les photos de la galerie sont transformées, pendant les périodes d’inactivité, en descriptions compactes d’objets, de scènes et d’événements, stockées dans un fichier Markdown après filtrage des informations sensibles. L’agent clone par ailleurs les trajectoires de clics en compétences réutilisables et extrait la commande de lancement complète d’une page d’application pour y revenir directement via deeplink, plutôt que de rejouer toute la séquence de taps.

Pourquoi c’est important

X-OmniClaw illustre une évolution vers des agents IA mobiles ancrés sur l’appareil, capables de combiner capteurs, interface et langage naturel tout en limitant la dépendance au cloud. En s’exécutant sur le téléphone physique, l’agent peut interagir avec des applications réelles et exploiter des données locales qui restent hors de portée des solutions virtualisées. L’accent mis sur la mémoire sémantique locale et le filtrage des informations sensibles répond aux préoccupations de confidentialité liées à la vision par le cloud. En transformant les comportements utilisateurs en compétences réutilisables et en utilisant des deeplinks, X-OmniClaw esquisse une nouvelle génération d’assistants capables d’automatiser des parcours complexes dans les applications tout en restant au plus près des usages et des données.

Questions fréquentes

Qu’est-ce que X-OmniClaw d’Oppo ?

X-OmniClaw est un agent d’IA open source de l’équipe Multi-X d’Oppo qui fonctionne directement sur les appareils Android et s’appuie sur la caméra, l’écran et la voix pour exécuter des tâches dans des applications réelles.

Comment X-OmniClaw se distingue-t-il des plateformes de cloud phone ?

Contrairement aux services comme RedFinger, Wuying d’Alibaba ou Tencent Cloud Phone qui tournent sur des Android virtualisés en data center, X-OmniClaw s’exécute sur l’appareil physique et peut accéder aux capteurs locaux et aux données privées.

Quel est le rôle du cloud dans X-OmniClaw ?

Le modèle de langage en cloud n’intervient que pour le raisonnement de haut niveau. La perception, le contrôle et l’interaction avec les applications sont gérés directement sur le téléphone.

Comment X-OmniClaw gère-t-il la mémoire à long terme ?

X-OmniClaw condense les données locales, comme les photos de la galerie, en descriptions sémantiques compactes stockées dans un fichier Markdown, après filtrage des informations sensibles.

Comment l’agent réutilise-t-il les actions de l’utilisateur ?

Il clone les parcours de taps en compétences réutilisables et extrait la commande de lancement d’une page d’application pour y accéder ensuite directement via deeplink, sans rejouer toute la séquence de clics.

Source

The Decoder

Auteur

Rédaction IA-Medias

Rédaction spécialisée dans la veille et l'analyse de l'actualité de l'intelligence artificielle, des puces IA, des robots, des agents IA et de la recherche.