ایجنت computer use

رقابت سخت در بالای جدول و پیشتازی ایجنت اس 3

کارشناس 13 مهر 1404

همان طور که در جریان ایجنت های Computer use هستید و مقالات قبلی ما را در این خصوص مطالعه کردید و در مقاله کواَکت بالاترین نتایج این موضوع را دیدید اما دیری نگذشت که به فاصله چندروز رقیبی که عقب افتاده بود خود را به صدر جدول OS-world رساند. بله Agents3 bBoN توانست با رسیدن به عدد 69.9% درصد موفقیت، رکورد همه را بزند. جایی که شرکت های Open ai و anthropic محصولات گرانی عرضه می کنند، این رقبای متن باز، زمین بازی را تغییر دادند.

حال بیش از این شما را منتظر نگذاریم و برویم سراغ اصل مقاله Agents3 bBoN

نام مقاله اصلی این دستاورد، THE UNREASONABLE EFFECTIVENESS OF SCALINGAGENTS FOR COMPUTER USE است که فقط 3 روز پیش چاپ شده است و دیروز در زیردامنه OS-world از سایت github قرار گرفت.

.

این مقاله به معرفی روشی نوین برای بهبود عملکرد عامل‌های هوش مصنوعی در استفاده از کامپیوتر می‌پردازد. خلاصه نکات اصلی:

🧠 هدف پژوهش

عامل‌های استفاده از کامپیوتر (Computer-Use Agents یا CUA) می‌توانند وظایف دیجیتال روزمره را خودکار کنند، اما معمولاً در وظایف پیچیده و طولانی شکست می‌خورند. این مقاله روشی به نام Behavior Best-of-N (bBoN) را پیشنهاد می‌کند که با اجرای چندین مسیر (rollout) مختلف از عامل‌ها و انتخاب بهترین مسیر، کارایی و پایداری آن‌ها را به‌طور چشمگیری افزایش می‌دهد.

⚙️ روش پیشنهادی (bBoN)

  1. تولید چند مسیر رفتاری (Rollouts):
    عامل‌ها چندین بار یک وظیفه را انجام می‌دهند و مسیرهای مختلفی از عملکرد تولید می‌شود.
  2. تولید «روایت رفتاری» (Behavior Narrative):
    هر مسیر به خلاصه‌ای متنی تبدیل می‌شود که توضیح می‌دهد عامل دقیقاً چه اقداماتی انجام داده و چه تغییراتی در محیط ایجاد شده است. این خلاصه‌ها اطلاعات غیرضروری (مثل جزئیات تصویری) را حذف می‌کنند.
  3. انتخاب بهترین مسیر با قضاوت مدل زبانی:
    یک مدل قضاوت‌گر (مثلاً یک مدل زبان–بینایی) بین روایت‌ها مقایسه انجام داده و بهترین مسیر را انتخاب می‌کند.

🔍 نتایج کلیدی

💡 نوآوری‌ها

📊 نکات فنی مهم

⚠️ محدودیت‌ها

🧩 نتیجه نهایی

مقاله نشان می‌دهد که افزایش مقیاس عامل‌ها همراه با انتخاب ساختارمند بهترین مسیر (نه صرفاً تولید خروجی بیشتر) می‌تواند به بهبود چشمگیر در عملکرد عامل‌های استفاده از کامپیوتر منجر شود — تا حدی که به سطح عملکرد انسانی نزدیک می‌شوند.

دانلود کامل مقاله:

دیدگاه شما

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *