ByteDance가 공개한 UI-TARS-1.5는 컴퓨터 화면을 이미지로 인식하고 자연어 명령을 통해 자동으로 조작하는 혁신적인 AI 에이전트입니다. 이 모델은 시스템 1(직관적)과 시스템 2(계획적) 사고를 결합하여 복잡한 GUI 작업을 수행할 수 있으며, Windows, Android, 웹 환경에서 뛰어난 성능을 보입니다. 특히 스크린샷을 분석하고 마우스와 키보드 조작을 통해 실제 사용자처럼 인터페이스를 조작할 수 있는 능력이 돋보이며, OpenAI의 Operator나 Anthropic의 Claude 같은 선도적 모델들을 여러 벤치마크에서 능가합니다. 이번 글에서는 UI-TARS-1.5의 기술적 특징, 작동 원리, 성능 비교, 그리고 이 혁신적 에이전트가 AI 자동화 분야에 가져올 변화에 대해 자세히 알아보겠습니다.
China Just Dropped the Most Dangerous AI Agent Yet
ByteDance에서 공개한 **Utar 1.5**는 화면을 하나의 이미지로 인식하여 GUI 자동화, 게임 에이전트, 그래픽 인터페이스 내의 모든 워크플로우를 혁신할 수 있는 비전 언어 에이전트입니다. 이 모델은
lilys.ai
🚀 ByteDance의 새로운 AI 에이전트 UI-TARS-1.5
UI-TARS-1.5는 ByteDance가 개발한 멀티모달 에이전트로, 화면을 하나의 이미지로 인식하고 자연어 명령을 통해 GUI를 직접 조작할 수 있습니다. 이 모델은 스크린샷을 입력으로 받아 분석하고, 마우스 클릭, 키보드 입력과 같은 인간과 유사한 상호작용을 수행합니다^4.
특히 UI-TARS-1.5는 GUI 자동화와 다양한 작업 흐름에서 게임 체인저라고 할 수 있는데, 기존의 도구 기반 LLM이나 함수 호출 아키텍처와 달리 UI 요소를 직접 인식하고 조작하는 능력이 뛰어나기 때문입니다^9. 이러한 접근 방식은 디지털 시스템과 상호작용하는 방식에서 인간 사용자와 유사한 경험을 제공합니다.
UI-TARS-1.5는 기존 모델에서 한 단계 더 발전하여 강화된 지각 및 추론 통합, 통합 액션 스페이스, 그리고 반복적인 재생 트레이스 자체 진화 기능을 특징으로 합니다^9. 이 모델은 화면 이미지와 텍스트 지시를 공동으로 인코딩하며, 상위 수준 계획과 하위 수준 실행을 분리하는 다단계 "생각 후 행동" 메커니즘을 통해 복잡한 작업을 이해하고 실행할 수 있습니다^9.
🤖 AI 에이전트의 시각적 인식과 행동 매커니즘
UI-TARS-1.5의 핵심 강점은 강화된 지각 능력에 있습니다. 이 모델은 대규모 GUI 스크린샷 데이터셋을 활용하여 UI 요소와 맥락을 이해합니다^9. 웹사이트, 안드로이드 UI, CAD 소프트웨어 등 다양한 환경에서 스크린 인식을 위한 데이터를 수집하고 통합했으며, 요소 설명과 밀집 캡션을 통해 사용자 인터페이스의 컨텍스트와 레이아웃을 정확히 파악합니다^4.
UI-TARS-1.5는 또한 질문-응답 기능이 있는 스크린샷 데이터셋을 통해 사용자 인터페이스 관련 질문에 답변할 수 있도록 훈련되었습니다^4. ByteDance는 '클릭', '드래그', '스크롤' 등 다양한 동작을 정의하고, 특정 상황에서의 메타 행동을 설정했습니다. 이를 통해 모델은 단순한 입력 명령을 넘어 맥락에 맞는 적절한 행동을 수행할 수 있게 되었습니다^4.
특히 주목할 만한 점은 UI-TARS-1.5가 통합된 액션 스페이스를 설계하여 데스크톱, 모바일, 게임 환경 전반에 걸쳐 일관된 인터페이스를 제공한다는 것입니다^9. 또한 수백만 개의 다단계 동작 데이터를 수집하여 모델이 단순한 입력 이상의 장기적인 제어를 학습할 수 있도록 했습니다^4.
🧠 인간 스타일 사고를 위한 시스템적 접근
UI-TARS-1.5의 가장 혁신적인 측면 중 하나는 인간의 사고 프로세스를 모방하는 방식입니다. 이 모델은 사고를 두 가지 시스템으로 나누는데, 시스템 1은 빠르고 직관적인 판단을 다루며, 시스템 2는 의도적인 사고 과정으로 작업을 세분화하고, 마일스톤을 인식하며, 시행착오를 반복하고, 문제 발생 시 반성하는 과정을 포함합니다^4.
이러한 시스템2 추론 접근법은 작업 분해, 반성적 사고, 마일스톤 인식 등 여러 추론 패턴을 포함하여 복잡한 문제 해결과 의사 결정을 가능하게 합니다^4. ByteDance는 600만 개의 GUI 튜토리얼을 수집하여 이유 추출을 위한 프라이머로 사용했으며, 모델은 여러 사고-행동 쌍을 샘플링한 후 실제로 효과가 있는 쌍만 보존하는 방식으로 학습되었습니다^4.
또한 UI-TARS-1.5는 반복적 개선 프레임워크를 활용하여 새로운 상호작용 트레이스를 동적으로 수집하고 개선합니다. 수백 대의 가상 머신을 활용하여 다양한 실제 작업을 탐색하고 수많은 트레이스를 생성합니다^4. 규칙 기반 휴리스틱, VLM 점수 매기기, 인간 검토를 포함한 엄격한 다단계 필터링을 통해 트레이스 품질을 보장하며, 이러한 개선된 트레이스는 다시 모델에 피드백되어 연속적이고 반복적인 성능 향상을 가능하게 합니다^4.
📊 UI-TARS 1.5의 성능 비교
UI-TARS-1.5는 여러 GUI 에이전트 벤치마크에서 인상적인 성능을 보여주고 있습니다. 합성 데스크톱 샌드박스에서 42.5%의 성공률을 기록하며 OpenAI의 Operator(36.4%)와 Claude 3.7(28%)을 능가했습니다^4.
OSWorld 벤치마크에서는 UI-TARS-1.5가 50 스텝에서 특정 점수를, 15 스텝에서 다른 점수를 기록하며 Claude의 점수들을 앞섰습니다^4. Windows 에이전트 아레나에서는 구형 기준인 29.8% 대비 42.1%의 향상된 성과를 보여주었습니다^9.
AndroidWorld에서는 UI-TARS-1.5의 7B 모델이 64.2%의 성공률로 이전 모델의 59.5%를 능가했습니다^4. 특히 Grounding 테스트에서는 94.2%의 정확도로 Operator(87.9%)와 Claude(87.6%)를 모두 앞서는 결과를 보여주었습니다^9.
게임 환경에서의 성능도 주목할 만한데, UI-TARS가 여러 게임에서 100%의 성공률을 달성한 반면, Operator와 Claude는 그보다 낮은 성공률을 기록했습니다^12. 이러한 결과들은 UI-TARS-1.5가 다양한 환경에서 탁월한 성능을 발휘하는 강력한 에이전트임을 입증합니다.
🔍 UI-TARS-1.5의 기술적 혁신과 활용 가능성
UI-TARS-1.5는 Apache-2.0 라이선스 하에 오픈소스로 공개되어 있으며, 7B 체크포인트가 일반에 공개되어 있고 72B 모델은 초기 연구 접근이 가능합니다^8. 이 모델은 자연어 프롬프트를 입력받아 사용자를 대신해 컴퓨터를 작동시키며, 마치 "오픈 소스 운영자"처럼 작동합니다^8.
UI-TARS-1.5는 지각, 행동, 교차 모달 추론 및 메모리라는 네 가지 핵심 기능을 바탕으로 고급 기능을 구현합니다^8. 특히 구성된 모델이 팝업 창이나 예상치 못한 상황에도 자동으로 대응할 수 있는 능력이 돋보입니다. 훈련 과정은 50억 개 토큰을 기반으로 한 지속적인 사전 훈련, 그리고 고품질 지각 및 행동 쌍에 초점을 맞춘 단계로 나누어 진행되었습니다^8.
성능 측면에서는 multimodal mind2web에서 74.7%의 정확도와 Android 제어 작업에서 89.9%의 성공률을 기록했으며, 이는 OS Atlas 7B보다 약 26포인트 높은 결과입니다^8. 이는 UI-TARS-1.5가 단순한 실험적 모델을 넘어 실제 응용 프로그램에서도 뛰어난 성능을 발휘할 수 있음을 시사합니다.
결론
ByteDance의 UI-TARS-1.5는 시스템 1과 시스템 2 사고를 결합한 혁신적인 멀티모달 에이전트로, GUI 자동화와 인터페이스 상호작용의 패러다임을 바꿀 잠재력이 있습니다. 스크린샷을 분석하고 자연어 명령을 통해 실제 사용자처럼 컴퓨터를 조작할 수 있는 능력은 다양한 응용 분야에서 활용 가능성을 열어줍니다.
오픈소스로 공개된 이 모델은 여러 벤치마크에서 선도적인 상용 모델들을 능가하는 성능을 보여주었으며, 이는 ByteDance가 AI 에이전트 기술 분야에서 선도적인 위치에 있음을 증명합니다. UI-TARS-1.5는 AI 에이전트가 실제 환경에서 어떻게 작동하고 발전할 수 있는지를 보여주는 중요한 사례로, 향후 AI 자동화 기술의 발전 방향을 제시하고 있습니다.
#AI에이전트 #GUI자동화 #비전언어모델 #ByteDance #AI혁신 #멀티모달에이전트 #UI-TARS-1.5 #인공지능 #컴퓨터비전 #자연어처리 #자동화기술 #오픈소스AI #UITAR
ByteDance's Innovative Vision Language Agent UI-TARS-1.5: A Complete Analysis
ByteDance's UI-TARS-1.5 is an innovative AI agent that recognizes computer screens as images and automatically manipulates them through natural language commands. This model combines System 1 (intuitive) and System 2 (planned) thinking to perform complex GUI tasks, showing excellent performance in Windows, Android, and web environments. It particularly excels at analyzing screenshots and manipulating interfaces like a real user through mouse and keyboard operations, outperforming leading models such as OpenAI's Operator and Anthropic's Claude in various benchmarks. In this article, we'll explore the technical features, operating principles, performance comparisons, and the changes this innovative agent will bring to the field of AI automation.
🚀 ByteDance's New AI Agent UI-TARS-1.5
UI-TARS-1.5 is a multimodal agent developed by ByteDance that can recognize screens as images and directly manipulate GUIs through natural language commands. This model takes screenshots as input for analysis and performs human-like interactions such as mouse clicks and keyboard inputs^4.
What makes UI-TARS-1.5 a game changer in GUI automation and various workflows is its superior ability to recognize and manipulate UI elements directly, unlike existing tool-based LLMs or function call architectures^9. This approach provides an experience similar to human users in how they interact with digital systems.
UI-TARS-1.5 has evolved from previous models to feature enhanced perception and reasoning integration, unified action space, and self-evolution through iterative replay traces^9. The model jointly encodes screen images and text instructions, and can understand and execute complex tasks through a multi-step "think-then-act" mechanism that separates high-level planning from low-level execution^9.
🤖 Visual Recognition and Action Mechanisms of AI Agents
The core strength of UI-TARS-1.5 lies in its enhanced perception capabilities. This model leverages large-scale GUI screenshot datasets to understand UI elements and context^9. Data has been collected and integrated from various environments including websites, Android UIs, and CAD software for screen recognition, and the model accurately grasps the context and layout of user interfaces through element descriptions and dense captioning^4.
UI-TARS-1.5 has also been trained to answer questions related to user interfaces through screenshot datasets with question-answering capabilities^4. ByteDance has defined various actions such as 'click', 'drag', and 'scroll', and set up meta-actions for specific situations. This allows the model to perform contextually appropriate actions beyond simple input commands^4.
A notable feature is that UI-TARS-1.5 provides a consistent interface across desktop, mobile, and game environments through a designed unified action space^9. Additionally, millions of multi-step action data have been collected to enable the model to learn long-term control beyond simple inputs^4.
🧠 Systematic Approach for Human-Style Thinking
One of the most innovative aspects of UI-TARS-1.5 is its approach to mimicking human thought processes. This model divides thinking into two systems: System 1 handles fast and intuitive judgments, while System 2 involves deliberate thinking processes including task breakdown, milestone recognition, trial and error repetition, and reflection when problems occur^4.
This System 2 reasoning approach enables complex problem-solving and decision-making through various reasoning patterns including task decomposition, reflective thinking, and milestone recognition^4. ByteDance collected 6 million GUI tutorials for use as primers for reason extraction, and the model was trained by sampling multiple thought-action pairs and preserving only those that actually worked^4.
Additionally, UI-TARS-1.5 utilizes an iterative improvement framework to dynamically collect and refine new interaction traces. It explores various real-world tasks and generates numerous traces using hundreds of virtual machines^4. Trace quality is ensured through rigorous multi-stage filtering including rule-based heuristics, VLM scoring, and human review, and these refined traces are fed back to the model to enable continuous, iterative performance enhancement^4.
📊 Performance Comparison of UI-TARS 1.5
UI-TARS-1.5 shows impressive performance in various GUI agent benchmarks. It achieved a 42.5% success rate in synthetic desktop sandboxes, outperforming OpenAI's Operator (36.4%) and Claude 3.7 (28%)^4.
In the OSWorld benchmark, UI-TARS-1.5 recorded specific scores at 50 steps and 15 steps, outperforming Claude's scores^4. In the Windows agent arena, it showed improved performance of 42.1% compared to the old standard of 29.8%^9.
In AndroidWorld, UI-TARS-1.5's 7B model achieved a 64.2% success rate, exceeding the 59.5% of previous models^4. Particularly in Grounding tests, it showed a 94.2% accuracy, outperforming both Operator (87.9%) and Claude (87.6%)^9.
Game environment performance is also noteworthy, with UI-TARS achieving a 100% success rate in various games, while Operator and Claude recorded lower success rates^12. These results demonstrate that UI-TARS-1.5 is a powerful agent that shows excellent performance in various environments.
🔍 Technical Innovation and Utilization Potential of UI-TARS-1.5
UI-TARS-1.5 is available as open source under the Apache-2.0 license, with the 7B checkpoint publicly available and the 72B model accessible for initial research^8. This model takes natural language prompts as input to operate computers on behalf of users, functioning like an "open source operator"^8.
UI-TARS-1.5 implements advanced functions based on four core capabilities: perception, action, cross-modal reasoning, and memory^8. Its ability to automatically respond to popup windows or unexpected situations is particularly noteworthy. The training process was divided into stages including continuous pre-training based on 5 billion tokens, and stages focusing on high-quality perception and action pairs^8.
In terms of performance, it recorded 74.7% accuracy in multimodal mind2web and 89.9% success rate in Android control tasks, which is about 26 points higher than OS Atlas 7B^8. This suggests that UI-TARS-1.5 can perform excellently not only as an experimental model but also in actual applications.
Conclusion
ByteDance's UI-TARS-1.5 is an innovative multimodal agent that combines System 1 and System 2 thinking, with the potential to change the paradigm of GUI automation and interface interaction. Its ability to analyze screenshots and manipulate computers like a real user through natural language commands opens up possibilities for use in various application areas.
This open-source model has shown performance that surpasses leading commercial models in several benchmarks, proving ByteDance's leading position in AI agent technology. UI-TARS-1.5 serves as an important case showing how AI agents can work and evolve in real environments, suggesting the future direction of AI automation technology development.
#AIAgent #GUIAutomation #VisionLanguageModel #ByteDance #AIInnovation #MultimodalAgent #UI-TARS-1.5 #ArtificialIntelligence #ComputerVision #NaturalLanguageProcessing #AutomationTechnology #OpenSourceAI #UITAR
#AI에이전트 #GUI자동화 #비전언어모델 #ByteDance #AI혁신 #멀티모달에이전트 #UI-TARS-1.5 #인공지능 #컴퓨터비전 #자연어처리 #자동화기술 #오픈소스AI #UITAR
'Agentic AI' 카테고리의 다른 글
생성형 AI와 에이전트 AI의 차이점: 미래 인공지능의 두 핵심 축 (0) | 2025.04.22 |
---|---|
제로 트러스트로 무장한 AI 에이전트: 안전과 보안을 위한 완벽 가이드 (1) | 2025.04.20 |
🧠 차세대 AI를 위한 스테이트풀 에이전트: Letta와 MemGPT로 구축하는 인간 같은 AI 메모리 시스템 (0) | 2025.04.20 |
Deep Agent: Abacus AI의 혁신적인 AI 에이전트 총정리 (2) | 2025.04.20 |
Method의 AI 혁신: 2명의 엔지니어로 5억 AI 에이전트 확장 성공기 (0) | 2025.04.13 |