پرش به محتوا پرش به پاورقی

کواَکت – بالاترین امتیاز در مقالات CUA

CoAct-1 یک سیستم چندعاملی جدید است که برای رفع ناکارآمدی و شکنندگی ذاتی عوامل متکی صرفاً بر دستکاری رابط کاربری گرافیکی(GUI) طراحی شده است. این سیستم با ترکیب کنترل مبتنی بر رابط کاربری گرافیکی با اجرای برنامه نویسی مستقیم، رویکردی قوی تر و منعطف تر برای اتوماسیون رایانه ارائه می دهد.

CoAct-1دارای یک ارکستراتور است که به طور پویا زیروظایف را به یک اپراتور رابط کاربری گرافیکی معمولی یا یک عامل برنامه نویس متخصص واگذار می کند. عامل برنامه نویس می تواند اسکریپت های پایتون یا Bash را بنویسد و اجرا کند و به عامل اجازه می دهد تا توالی های اقدام رابط کاربری گرافیکی ناکارآمد را برای کارهایی مانند مدیریت فایل و پردازش داده ها دور بزند، در حالی که در صورت لزوم از تعامل بصری استفاده می کند.

این سیستم با سه عامل تخصصی ساخته شده است: ارکِستِراتور(هماهنگ کننده)، برنامه نویس و اپراتور رابط کاربری گرافیکی. ارکستراتور سطح بالا به عنوان برنامه ریز مرکزی عمل می کند، هدف کاربر را تجزیه می کند و ماهیت هر زیرکار را ارزیابی می کند. بر اساس این تجزیه و تحلیل، ارکستراتور وظیفه را به یکی از دو عامل اجرایی مجزا اختصاص می دهد: یک عامل برنامه نویس، که اسکریپت های پایتون یا bash را برای عملیات بک اند مانند مدیریت فایل، پردازش داده ها یا پیکربندی محیط می نویسد و اجرا می کند. یا یک اپراتور رابط کاربری گرافیکی، یک عامل مبتنی بر VLM که اقدامات فرانت اند مانند کلیک کردن روی دکمه ها و پیمایش رابط های بصری را انجام می دهد.

تجزیه و تحلیل تجربی شواهد قوی برای مزایای این طراحی ترکیبی ارائه می دهد. در معیار جامع OSWorld، CoAct-1  یک استاندارد جدید ایجاد می کند و به نرخ موفقیت کلی 60.76٪ می رسد. این نشان دهنده بهبود قابل توجهی نسبت به خطوط اصلی پیشرو مانند  GTA-1 (53.10٪) است.

علاوه بر این، رویکرد دووجهی، کارایی عملیاتی را به طور چشمگیری افزایش می دهد CoAct-1 با جایگزینی توالی های کلیک طولانی و مستعد خطا با کد مختصر، وظایف را به طور متوسط ​​تنها در 10.15 مرحله حل می کند، که در تضاد شدید با 15 مرحله مورد نیاز عوامل مانند GTA-1 است. این کارایی پتانسیل رویکرد را برای هموار کردن مسیری قوی تر و مقیاس پذیرتر به سمت اتوماسیون رایانه تعمیم یافته نشان می دهد.

ارکستراتور بر اساس تمام مشاهدات قبلی، عمل گام به گام خود را انجام می دهد. ارکستراتور نمی تواند مستقیماً با سیستم عامل تعامل داشته باشد. بنابراین، در هر مرحله، ارکستراتور ملزم به تخصیص یک زیرکار به یک برنامه نویس یا یک اپراتور رابط کاربری گرافیکی است. پس از اتمام زیرکار توسط برنامه نویس و اپراتور رابط کاربری گرافیکی، اپراتور خلاصه ای از روند حل مسئله خود و یک اسکرین شات که وضعیت فعلی سیستم را منعکس می کند، دریافت می کند. اگر ارکستراتور تشخیص دهد که کار کامل شده است، یک سیگنال خاتمه برای پایان دادن به مکالمه ارسال می کند.

هنگامی که ارکستراتور یک زیرکار را به برنامه نویس اختصاص می دهد، یک مکالمه جدید بین عامل کدنویسی و مترجم کد ایجاد می شود و عامل کدنویسی را قادر می سازد تا کد تولید شده را با توجه به بازخورد محیط در چندین دور منعکس کند. از عامل کدنویسی خواسته می شود که زیرکار اختصاص داده شده را با برنامه نویسی با اسکریپت های پایتون یا bash حل کند، که دو زبان پرکاربرد هنگام کار با سیستم عامل هستند.

عامل رابط کاربری گرافیکی یک مدل عمل زبان بصری است که می تواند یک توالی از تصاویر را همراه با دستورالعمل متن به عنوان ورودی بگیرد و یک (توالی) عمل رابط کاربری گرافیکی تولید کند. هنگامی که اپراتور رابط کاربری گرافیکی یک زیرکار از ارکستراتور دریافت می کند، یک مکالمه بین یک عامل رابط کاربری گرافیکی و یک مترجم عمل رابط کاربری گرافیکی ایجاد می کند. عمل رابط کاربری گرافیکی شامل حرکت ماوس، کلیک ماوس، کلیدهای میانبر صفحه کلید و تایپ صفحه کلید است.

برای هر عامل، تاریخچه مکالمه نمونه را به عنوان حافظه خود استفاده می کنیم. هنگامی که برنامه نویس یک زیرکار اختصاص داده شده را تکمیل می کند، یک مدل زبان مکالمه بین عامل کدنویسی و مترجم کد را خلاصه می کند و خلاصه و یک اسکرین شات را به عنوان بخشی از حافظه ارکستراتور به ارکستراتور باز می گرداند. از طرف دیگر، اپراتور رابط کاربری گرافیکی پیامی را برمی گرداند که شامل اطلاعات مورد نیاز از ارکستراتور است، که به عنوان بخشی از حافظه ارکستراتور نیز ذخیره می شود.

CoAct-1 با OpenAI CUA 4o، GTA-1، UI-TARS و سایر خطوط اصلی ذکر شده در جدول 1 مقایسه شده است. این خطوط اصلی نشان دهنده پیشرفت اتوماسیون وظایف مبتنی بر رابط کاربری گرافیکی است که هر کدام رویکردی منحصر به فرد برای تعامل و کنترل رایانه دارند CoAct-1 از AG2 استفاده می کند. مدل های مختلفی برای برنامه نویس و ارکستراتور آزمایش شدند، از جمله OpenAI o3 و o4-mini برای اپراتور رابط کاربری گرافیکی، از پیش نمایش استفاده از رایانه استفاده می شود، یک مدل عمل زبان بصری که توسط OpenAI برای استفاده از رایانه تنظیم شده است، به عنوان مدل اصلی از o4-mini به عنوان خلاصه کننده برای خلاصه کردن تاریخچه مکالمه بین برنامه نویس و ارکستراتور استفاده می شود. حداکثر دور I برای برنامه نویس 20، حداکثر مرحله K برای اپراتور رابط کاربری گرافیکی 25 و حداکثر دور J برای ارکستراتور 15 تنظیم شده است. بنابراین، تعداد تعاملات سیستم، یعنی تعداد مراحل، برای CoAct-1 توسط 375 محدود می شود.

جدول 1 مقاله، مقایسه ای جامع از CoAct-1 با مدل های پیشرفته در معیار OSWorld ارائه می دهد و نشان می دهد که عامل ما یک استاندارد جدید برای عملکرد ایجاد می کند. CoAct-1 به نرخ موفقیت بالای 60.76٪ در دسته 100+ مرحله می رسد. نتایج نشان می دهد که CoAct-1 به طور مداوم از سایر روش های پیشرو در حداکثر مجازات مرحله مختلف بهتر عمل می کند. به عنوان مثال، با بودجه 100 مرحله، CoAct-1 به نرخ موفقیت 59.93٪ می رسد، که بهبود قابل توجهی نسبت به سایر چارچوب های عامل مانند Agent S2.5 w/ o3 (56.00٪) و GTA-1-7B w/ o3 (53.10٪) است.

از طرف دیگر، همانطور که در جدول 2 مقاله نشان داده شده است، CoAct-1 به بالاترین نرخ موفقیت متوسط ​​کلی 59.93٪ دست می یابد. این نشان دهنده حاشیه قابل توجهی از بهبود نسبت به سایر عوامل پیشرو است، از جمله GTA-1 (53.10٪)، OpenAI CUA 4o (31.40٪) و UI-TARS-1.5 (7b) (29.60٪). مزایای رویکرد ترکیبی ما در دسته های وظایف که از کنترل برنامه نویسی بهره می برند، مشهودتر است. در دسته”Multi Apps”، عملکرد CoAct-1 با 47.88٪ به طور قابل توجهی از GTA-1 (38.34٪) فراتر می رود. به طور مشابه، دستاوردهای عمده عملکردی در وظایف خاص برنامه و سطح سیستم عامل مشاهده می شود. برای VLC، CoAct-1 امتیاز 71.96٪ را در مقایسه با 53.29٪ GTA-1  کسب می کند. و برای وظایف عمومی سیستم عامل، CoAct-1  به 75.00٪ می رسد. CoAct-1  همچنین عملکرد برتری را در سایر برنامه ها مانند LibreOffice Calc (70.21٪) و Writer (73.91٪) نشان می دهد.

تجزیه و تحلیل کارایی عملیاتی CoAct-1 نشان می دهد که رویکرد ترکیبی ما به طور قابل توجهی کارآمدتر از عوامل رابط کاربری گرافیکی صرف است. همانطور که در شکل 3aنشان داده شده است، CoAct-1 وظایف را به طور متوسط ​​با 10.15 مرحله حل می کند. این نشان دهنده بهبود قابل توجهی نسبت به سایر عوامل با عملکرد بالا مانند GTA-1 است که به 15.22 مرحله نیاز دارد و UI-TARS که به طور متوسط ​​به 14.90 مرحله نیاز دارد. در حالی که OpenAI CUA 4o به طور متوسط ​​مراحل کمتری دارد (6.14)، نرخ موفقیت کلی آن در مقایسه با CoAct-1 بسیار کمتر است (31.40٪ در مقابل 59.93٪ در 100 مرحله). منبع این کارایی در استفاده استراتژیک از اقدامات کدنویسی نهفته است. شکل 3b از این موضوع پشتیبانی می کند و نشان می دهد که اقدامات کدنویسی به پایین نگه داشتن مراحل کل در هر کار کمک می کند. شکل 3c نشان می دهد که کدنویسی به ویژه در دامنه های پیچیده مانند “LibreOffice Calc”، “Multi-apps” و تعاملات مستقیم سیستم عامل مفید است، جایی که نسبت بزرگی از وظایف با کد حل می شوند. شکل 3d یک روند واضح را نشان می دهد: وظایفی که به اقدامات بیشتری نیاز دارند، به احتمال زیاد با شکست مواجه می شوند. با کاهش تعداد کل مراحل، رویکرد ترکیبی نه تنها تکمیل کار را تسریع می کند، بلکه فرصت ها را برای خطا نیز به حداقل می رساند.

پیام بگذارید