🤖

    Agent TARS

    Open Source (Apache 2.0)
    SOTA GUI (UI-TARS-2)
    Multimodal
    Technical Preview
    28 800+ étoiles GitHub

    Agent IA multimodal open source de ByteDance qui contrôle navigateur et interfaces GUI via vision pour exécuter des tâches autonomes complexes

    Gratuit (open source)Autonomie: ÉlevéeAnglais et chinois (interface et docs). Langages de développement : TypeScript et JavaScript (Node.js >= 22)
    Score global
    Score global :Moins de 5À éviter5 à 7CorrectPlus de 7Recommandé

    Présentation

    Agent TARS est un stack agentique multimodal open source développé par ByteDance Seed, basé sur le modèle vision-langage UI-TARS-2 entraîné via reinforcement learning multi-tour pour l'interaction GUI native. Il perçoit visuellement les interfaces (web, desktop, mobile), raisonne via une boucle "think-then-act" et exécute des actions autonomes : contrôle navigateur (Playwright), commandes shell, gestion de fichiers et outils MCP. Le stack regroupe deux projets : Agent TARS (CLI + Web UI, multi-LLM généraliste) et UI-TARS-desktop (app native, modèle UI-TARS dédié). Disponible en CLI, Web UI et application desktop (macOS principalement), il supporte Claude, OpenAI, Volcengine Doubao, Qwen et modèles locaux via Ollama. Il cible les développeurs et chercheurs souhaitant automatiser des workflows GUI complexes sans API dédiée.

    Cas d'usage

    Navigation autonome sur sites tiers sans API pour réservations de vols et hôtels
    Analyse boursière avec synthèse et rapport exportable
    Audit et rapport de bugs sur un dépôt GitHub via navigation autonome du code
    Planification d'itinéraire de voyage complet avec recherche multi-sources
    Extraction et synthèse de données depuis n'importe quelle interface web
    Automatisation de tâches répétitives sur applications desktop par contrôle visuel natif

    ✅ Forces

    • UI-TARS-2 SOTA sur benchmarks GUI : 47
    • 5 % OSWorld et 50
    • 6 % WindowsAgentArena et 73
    • 3 % AndroidWorld et 88
    • 2 % Online-Mind2Web — surpassant OpenAI Operator et Claude Computer Use (source : arXiv 2509.02544)
    • Architecture vision-langage native entraînée spécifiquement pour l'interaction GUI sans dépendance à des APIs d'écran tierces
    • Boucle "think-then-act" avec raisonnement explicite visible en temps réel avant chaque action
    • Contrôle visuel universel de n'importe quelle interface sans API dédiée du service cible
    • Multi-LLM natif incluant Volcengine Doubao et modèles locaux à coût zéro
    • Publications scientifiques peer-reviewed (arXiv 2501.12326 et arXiv 2509.02544) soutenues par ByteDance Seed et Tsinghua University
    • 28 800 étoiles GitHub et 2 800 forks

    ⚠️ Limites

    • Technical preview uniquement
    • déconseillé officiellement pour usage en production à mars 2026
    • Support macOS confirmé
    • Windows en développement
    • Linux non confirmé officiellement
    • Nécessite Node.js >= 22 et clés API LLM — inaccessible aux profils non techniques
    • Origine ByteDance pouvant soulever des questions réglementaires pour les entreprises européennes ou américaines sensibles
    • Risques de sécurité documentés : le modèle peut contourner des CAPTCHAs et nécessite une supervision active (source : github.com/bytedance/UI-TARS)
    • Interface et documentation en anglais et chinois uniquement sans support francophone
    • Consommation LLM élevée sur tâches longues multi-étapes

    Intégrations

    Playwright (navigateur)
    shell bash natif
    système de fichiers (lecture et écriture)
    MCP (Model Context Protocol)
    Anthropic Claude (recommandé officiellement)
    OpenAI GPT-4
    Azure OpenAI
    Volcengine Doubao
    Qwen
    Ollama
    LM Studio
    export sessions HTML local ou POST serveur externe
    CLI et Web UI simultanés

    Tarification & ROI

    - Open source core : 0 $/mois — licence Apache 2.0, code sur GitHub - API LLM requise : tarifs variables selon fournisseur - Aucun abonnement SaaS ni tarification officielle publiée à mars 2026

    ROI estimé :

    Score détaillé

    Intelligence réelle9.0
    Autonomie8.5
    Facilité d'usage5.0
    Intégrations7.5
    Rapport qualité/prix9.0
    Adaptation PME4.5
    Qualité du français5.0
    Public cible
    Développeurs et ingénieurs automatisant des workflows GUI sans API dédiée
    Chercheurs en IA agentique et vision-langage
    Équipes DevOps automatisant des tâches répétitives sur interfaces graphiques
    Power users techniques voulant déléguer des tâches multi-étapes complexes
    Contributeurs open source dans l'écosystème ByteDance Seed

    Alternatives comparables