Oppo X-OmniClaw : un agent IA Android open source s’exécute localement, sans cloud

OliverGrant

L’équipe Multi-X d’Oppo a publié X-OmniClaw, un framework open-source d’agent IA Android qui conserve la logique principale sur l’appareil tout en faisant appel à des modèles de langage basés dans le cloud uniquement pour les tâches de raisonnement les plus lourdes. Contrairement à la plupart des systèmes d’IA mobile qui s’appuient sur des serveurs cloud hébergeant des copies virtuelles d’Android, X-OmniClaw s’exécute directement sur le terminal physique de l’utilisateur, avec accès à la caméra du téléphone, aux photos et aux fichiers locaux.

Architecture : trois piliers d’intelligence sur l’appareil

X-OmniClaw fonctionne grâce à trois composants interconnectés qui forment une boucle continue, selon la documentation technique d’Oppo.

Omni Perception combine les flux de la caméra, le contenu de l’écran et l’entrée vocale dans un pipeline unique. Un modèle vision-langage interprète la scène avant que l’agent n’agisse. Par exemple, si un utilisateur pointe sa caméra vers un produit et demande son prix, l’agent identifie d’abord ce qu’il voit, puis ouvre l’application de shopping concernée et commence à chercher sans nécessiter d’entrée manuelle.

Omni Memory distingue X-OmniClaw des chatbots à réponse unique en conservant le contexte au fil des tâches, des changements d’application et des sessions. L’agent construit une mémoire sémantique à long terme à partir de la galerie photo de l’utilisateur, en transformant des images brutes en notes structurées sur les objets, les scènes et les événements. D’après le rapport, « la continuité en temps d’exécution est ce qui permet à X-OmniClaw de fonctionner comme un agent de l’appareil en cours, plutôt que comme un système de réponse ponctuelle ».

Omni Action gère l’exécution en combinant des données d’interface XML avec des modèles visuels fonctionnant sur l’appareil et de la reconnaissance optique de caractères (OCR) pour déterminer précisément quoi toucher, même sur des écrans encombrés. Le framework inclut une fonctionnalité de behavior cloning qui permet aux utilisateurs d’enregistrer un itinéraire une fois, puis de le rejouer instantanément lors de sessions futures via des raccourcis Android deeplink, en contournant une navigation d’applications en plusieurs étapes.

Exemples d’utilisation en conditions réelles

Oppo a présenté plusieurs applications concrètes de X-OmniClaw :

  • Identification de produits et tarification : l’agent identifie un produit physique via la caméra, ouvre Taobao, fait défiler les résultats et renvoie un résumé du prix sans nécessiter de saisie.

  • Aide à l’apprentissage : un compagnon flottant à l’écran aide les utilisateurs à résoudre des exercices de mathématiques étape par étape, de manière autonome, en lisant le contenu de l’écran, en traitant chaque question, puis en avançant une fois la tâche terminée.

  • Création de vidéos à partir de la galerie : lorsqu’on lui demande d’assembler une vidéo récapitulative à partir de photos à thème perroquet, le système scanne la galerie à l’aide de la mémoire sémantique pour retrouver des images correspondantes, ouvre l’éditeur vidéo de CapCut via deeplink, sélectionne des fichiers par lots, puis génère la vidéo. Le rapport indique que ce processus, qui demandait auparavant « quelques minutes ou plus », est réduit à quelques étapes automatisées.

Positionnement dans l’écosystème des agents IA

X-OmniClaw étend une architecture initiée par OpenClaw, un framework d’agent open-source qui a atteint plus de 373 000 étoiles sur GitHub et a finalement été soutenu par OpenAI. Hermes Agent de Nous Research a fait progresser davantage le concept avec une boucle d’apprentissage auto-améliorée qui accroît les capacités avec le temps. Les deux projets tournaient principalement sur du matériel de bureau. X-OmniClaw adapte cette architecture aux smartphones en s’appuyant sur la base de code open-source HermesApp et en intégrant le modèle de compétences structuré d’OpenClaw comme source d’inspiration fondamentale, puis en le personnalisant pour la nature multimodale et toujours active des appareils mobiles.

Le code est disponible sur GitHub, et Oppo s’est engagé à publier l’ensemble des ressources et à continuer de mettre à jour le projet à mesure que le système évolue.

Avertissement : Les informations figurant sur cette page peuvent provenir de sources tierces et sont fournies à titre indicatif uniquement. Elles ne reflètent pas les points de vue ou opinions de Gate et ne constituent pas un conseil financier, d’investissement ou juridique. Le trading des actifs virtuels comporte des risques élevés. Veuillez ne pas vous fonder uniquement sur les informations de cette page pour prendre vos décisions. Pour en savoir plus, consultez l’avertissement.
Commentaire
0/400
Aucun commentaire