همان طور که در جریان ایجنت های Computer use هستید و مقالات قبلی ما را در این خصوص مطالعه کردید و در مقاله کواَکت بالاترین نتایج این موضوع را دیدید اما دیری نگذشت که به فاصله چندروز رقیبی که عقب افتاده بود خود را به صدر جدول OS-world رساند. بله Agents3 bBoN توانست با رسیدن به عدد 69.9% درصد موفقیت، رکورد همه را بزند. جایی که شرکت های Open ai و anthropic محصولات گرانی عرضه می کنند، این رقبای متن باز، زمین بازی را تغییر دادند.

حال بیش از این شما را منتظر نگذاریم و برویم سراغ اصل مقاله Agents3 bBoN

نام مقاله اصلی این دستاورد، THE UNREASONABLE EFFECTIVENESS OF SCALINGAGENTS FOR COMPUTER USE است که فقط 3 روز پیش چاپ شده است و دیروز در زیردامنه OS-world از سایت github قرار گرفت.

.

این مقاله به معرفی روشی نوین برای بهبود عملکرد عامل‌های هوش مصنوعی در استفاده از کامپیوتر می‌پردازد. خلاصه نکات اصلی:

🧠 هدف پژوهش

عامل‌های استفاده از کامپیوتر (Computer-Use Agents یا CUA) می‌توانند وظایف دیجیتال روزمره را خودکار کنند، اما معمولاً در وظایف پیچیده و طولانی شکست می‌خورند. این مقاله روشی به نام Behavior Best-of-N (bBoN) را پیشنهاد می‌کند که با اجرای چندین مسیر (rollout) مختلف از عامل‌ها و انتخاب بهترین مسیر، کارایی و پایداری آن‌ها را به‌طور چشمگیری افزایش می‌دهد.

⚙️ روش پیشنهادی (bBoN)

تولید چند مسیر رفتاری (Rollouts):
عامل‌ها چندین بار یک وظیفه را انجام می‌دهند و مسیرهای مختلفی از عملکرد تولید می‌شود.
تولید «روایت رفتاری» (Behavior Narrative):
هر مسیر به خلاصه‌ای متنی تبدیل می‌شود که توضیح می‌دهد عامل دقیقاً چه اقداماتی انجام داده و چه تغییراتی در محیط ایجاد شده است. این خلاصه‌ها اطلاعات غیرضروری (مثل جزئیات تصویری) را حذف می‌کنند.
انتخاب بهترین مسیر با قضاوت مدل زبانی:
یک مدل قضاوت‌گر (مثلاً یک مدل زبان–بینایی) بین روایت‌ها مقایسه انجام داده و بهترین مسیر را انتخاب می‌کند.

🔍 نتایج کلیدی

روی بنچمارک OSWorld (محیط Ubuntu با ۳۶۱ وظیفه)، روش bBoN با مدل GPT-5 به دقت ۶۹.۹٪ رسید؛ رکورد جدیدی که از حد انسان (۷۲٪) فاصله کمی دارد.
این روش نسبت به بهترین روش قبلی (CoAct-1) حدود ۱۰٪ بهتر عمل کرده است.
bBoN علاوه بر لینوکس، روی WindowsAgentArena و AndroidWorld نیز به خوبی تعمیم یافته و بهبود قابل‌توجهی نشان داده است.
افزایش تعداد rollouts منجر به بهبود تدریجی عملکرد می‌شود (اثر مقیاس‌پذیری مثبت).

💡 نوآوری‌ها

مقیاس‌پذیری گسترده (Wide Scaling): استفاده از چندین عامل یا مدل هم‌زمان برای جستجوی راه‌حل‌های متنوع.
نمایش فشرده و معنادار از رفتار (Behavior Narrative): که داوری میان مسیرها را ساده‌تر و دقیق‌تر می‌کند.
انتخاب مقایسه‌ای (Comparative Selection): داور مسیرها را هم‌زمان مقایسه می‌کند نه به‌صورت جداگانه، که دقت انتخاب را افزایش می‌دهد.
Agent S3: نسخه بهبودیافته‌ای از چارچوب عامل قبلی (Agent S2) با سرعت و بازدهی بیشتر.

📊 نکات فنی مهم

افزایش تعداد مسیرها (N) باعث افزایش نرخ موفقیت تا نزدیکی سطح انسانی می‌شود.
ترکیب چند مدل (مثل GPT-5 + Gemini 2.5 Pro) بهترین نتایج را در تنوع وظایف نشان داد.
رفتارهای عامل در قالب متن قابل تفسیرتر از اسکرین‌شات خام یا توضیحات ساده بودند.

⚠️ محدودیت‌ها

نیاز به محیط‌های مجازی (VM) برای اجرای چند مسیر مستقل.
در محیط‌های واقعی (دسکتاپ کاربر) هم‌زمانی چند اجرا دشوار است.
برخی خطاها از قبیل «توهم در تشخیص تصویری» یا هماهنگی ضعیف بین عامل گرافیکی و عامل کدنویسی مشاهده شد.

🧩 نتیجه نهایی

مقاله نشان می‌دهد که افزایش مقیاس عامل‌ها همراه با انتخاب ساختارمند بهترین مسیر (نه صرفاً تولید خروجی بیشتر) می‌تواند به بهبود چشمگیر در عملکرد عامل‌های استفاده از کامپیوتر منجر شود — تا حدی که به سطح عملکرد انسانی نزدیک می‌شوند.

رقابت سخت در بالای جدول و پیشتازی ایجنت اس 3