همان طور که در جریان ایجنت های Computer use هستید و مقالات قبلی ما را در این خصوص مطالعه کردید و در مقاله کواَکت بالاترین نتایج این موضوع را دیدید اما دیری نگذشت که به فاصله چندروز رقیبی که عقب افتاده بود خود را به صدر جدول OS-world رساند. بله Agents3 bBoN توانست با رسیدن به عدد 69.9% درصد موفقیت، رکورد همه را بزند. جایی که شرکت های Open ai و anthropic محصولات گرانی عرضه می کنند، این رقبای متن باز، زمین بازی را تغییر دادند.
حال بیش از این شما را منتظر نگذاریم و برویم سراغ اصل مقاله Agents3 bBoN
نام مقاله اصلی این دستاورد، THE UNREASONABLE EFFECTIVENESS OF SCALINGAGENTS FOR COMPUTER USE است که فقط 3 روز پیش چاپ شده است و دیروز در زیردامنه OS-world از سایت github قرار گرفت.

.
این مقاله به معرفی روشی نوین برای بهبود عملکرد عاملهای هوش مصنوعی در استفاده از کامپیوتر میپردازد. خلاصه نکات اصلی:
🧠 هدف پژوهش
عاملهای استفاده از کامپیوتر (Computer-Use Agents یا CUA) میتوانند وظایف دیجیتال روزمره را خودکار کنند، اما معمولاً در وظایف پیچیده و طولانی شکست میخورند. این مقاله روشی به نام Behavior Best-of-N (bBoN) را پیشنهاد میکند که با اجرای چندین مسیر (rollout) مختلف از عاملها و انتخاب بهترین مسیر، کارایی و پایداری آنها را بهطور چشمگیری افزایش میدهد.
⚙️ روش پیشنهادی (bBoN)
- تولید چند مسیر رفتاری (Rollouts):
عاملها چندین بار یک وظیفه را انجام میدهند و مسیرهای مختلفی از عملکرد تولید میشود. - تولید «روایت رفتاری» (Behavior Narrative):
هر مسیر به خلاصهای متنی تبدیل میشود که توضیح میدهد عامل دقیقاً چه اقداماتی انجام داده و چه تغییراتی در محیط ایجاد شده است. این خلاصهها اطلاعات غیرضروری (مثل جزئیات تصویری) را حذف میکنند. - انتخاب بهترین مسیر با قضاوت مدل زبانی:
یک مدل قضاوتگر (مثلاً یک مدل زبان–بینایی) بین روایتها مقایسه انجام داده و بهترین مسیر را انتخاب میکند. 
🔍 نتایج کلیدی
- روی بنچمارک OSWorld (محیط Ubuntu با ۳۶۱ وظیفه)، روش bBoN با مدل GPT-5 به دقت ۶۹.۹٪ رسید؛ رکورد جدیدی که از حد انسان (۷۲٪) فاصله کمی دارد.
 - این روش نسبت به بهترین روش قبلی (CoAct-1) حدود ۱۰٪ بهتر عمل کرده است.
 - bBoN علاوه بر لینوکس، روی WindowsAgentArena و AndroidWorld نیز به خوبی تعمیم یافته و بهبود قابلتوجهی نشان داده است.
 - افزایش تعداد rollouts منجر به بهبود تدریجی عملکرد میشود (اثر مقیاسپذیری مثبت).
 
💡 نوآوریها
- مقیاسپذیری گسترده (Wide Scaling): استفاده از چندین عامل یا مدل همزمان برای جستجوی راهحلهای متنوع.
 - نمایش فشرده و معنادار از رفتار (Behavior Narrative): که داوری میان مسیرها را سادهتر و دقیقتر میکند.
 - انتخاب مقایسهای (Comparative Selection): داور مسیرها را همزمان مقایسه میکند نه بهصورت جداگانه، که دقت انتخاب را افزایش میدهد.
 - Agent S3: نسخه بهبودیافتهای از چارچوب عامل قبلی (Agent S2) با سرعت و بازدهی بیشتر.
 
📊 نکات فنی مهم
- افزایش تعداد مسیرها (N) باعث افزایش نرخ موفقیت تا نزدیکی سطح انسانی میشود.
 - ترکیب چند مدل (مثل GPT-5 + Gemini 2.5 Pro) بهترین نتایج را در تنوع وظایف نشان داد.
 - رفتارهای عامل در قالب متن قابل تفسیرتر از اسکرینشات خام یا توضیحات ساده بودند.
 
⚠️ محدودیتها
- نیاز به محیطهای مجازی (VM) برای اجرای چند مسیر مستقل.
 - در محیطهای واقعی (دسکتاپ کاربر) همزمانی چند اجرا دشوار است.
 - برخی خطاها از قبیل «توهم در تشخیص تصویری» یا هماهنگی ضعیف بین عامل گرافیکی و عامل کدنویسی مشاهده شد.
 
🧩 نتیجه نهایی
مقاله نشان میدهد که افزایش مقیاس عاملها همراه با انتخاب ساختارمند بهترین مسیر (نه صرفاً تولید خروجی بیشتر) میتواند به بهبود چشمگیر در عملکرد عاملهای استفاده از کامپیوتر منجر شود — تا حدی که به سطح عملکرد انسانی نزدیک میشوند.
دانلود کامل مقاله: