پرش به محتوا پرش به پاورقی

چارچوبی برای مدل های بزرگ زبانی عامل محور

این مقاله با عنوان «GEM: A Gym for Agentic LLMs» به معرفی چارچوبی جدید برای آموزش و ارزیابی مدل‌های زبانی عامل‌محور از طریق یادگیری تقویتی (RL) می‌پردازد. در ادامه خلاصه‌ی جامع آن تقدیم می شود:

🎯 هدف پژوهش

با رشد سریع مدل‌های زبانی بزرگ (LLMها)، نیاز به چارچوبی برای آموزش از طریق تجربه و تعامل احساس می‌شود؛ مشابه کاری که OpenAI Gym برای یادگیری تقویتی سنتی انجام داد.
این مقاله چارچوبی به نام GEM (General Experience Maker) معرفی می‌کند — یک پلتفرم متن‌باز که امکان آموزش، آزمایش و ارزیابی عامل‌های زبانی در محیط‌های پیچیده و چندمرحله‌ای را فراهم می‌کند.

⚙️ ویژگی‌های اصلی GEM

  1. رابط استاندارد شبیه به OpenAI Gym:
    دارای توابع reset() و step() برای تعامل ساده بین عامل و محیط.
  2. پشتیبانی از محیط‌های چندمرحله‌ای (multi-turn):
    شامل بازی‌ها، حل مسائل ریاضی، برنامه‌نویسی، استدلال، پرسش‌وپاسخ، و کار با ترمینال.
  3. قابلیت استفاده از ابزارها (Tool Integration):
    • ابزار Python برای اجرای کد
    • ابزار Search برای جست‌وجوی اطلاعات
    • پشتیبانی از Model Context Protocol (MCP) برای اتصال به هر ابزار خارجی.
  4. اجرای هم‌زمان و برداری (Asynchronous Vectorization):
    برای افزایش سرعت جمع‌آوری تجربه و کاهش تأخیر.
  5. قابلیت توسعه آسان:
    با سیستم wrapperها و ثبت محیط‌های جدید تنها با چند خط کد.
  6. سازگاری با فریم‌ورک‌های محبوب RL:
    از جمله Oat، Verl، OpenRLHF، ROLL و RL2.

🧠 نوآوری الگوریتمی

مقاله علاوه بر معرفی GEM، یک نسخه بهبود یافته از الگوریتم REINFORCE را پیشنهاد می‌کند به نام
REINFORCE + Return Batch Normalization (ReBN).

📌 ویژگی‌ها:

  • بر خلاف الگوریتم GRPO، با پاداش‌های پیوسته (dense) و تخفیف‌های دلخواه (γ ≤ 1) سازگار است.
  • یادگیری پایدارتری ارائه می‌دهد بدون نیاز به «critic» یا ساختار پیچیده محاسبه مزیت.
  • در آزمایش‌ها عملکردی قوی‌تر یا هم‌سطح PPO و GRPO داشت.

🔍نتایج تجربی

GEM برای ۲۴ محیط مختلف آزمایش شد در پنج دسته:

  • بازی‌ها (مانند Minesweeper، Sudoku)
  • استدلال (ReasoningGym)
  • کدنویسی
  • ریاضی با ابزار پایتون
  • پرسش‌وپاسخ با ابزار جست‌وجو

⚙️نتایج کلیدی:

  • ReBN در بیشتر محیط‌ها از GRPO و PPO بهتر عمل کرد.
  • در محیط‌های چندمرحله‌ای، GRPO دچار ضعف در انتساب پاداش بود.
  • کاهش ضریب تخفیف (γ) باعث شد عامل‌ها سریع‌تر و کارآمدتر عمل کنند (مثلاً کشف خودکار الگوریتم جست‌وجوی دودویی).
  • استفاده از ابزارهای Python و Search موجب افزایش دقت ۱۰–۲۰٪ در ریاضیات و QA شد.
  • GEM توانست به‌راحتی به پنج فریم‌ورک مختلف آموزش متصل شود و کارایی مشابهی ارائه دهد.

🔍 ارزیابی عامل‌های واقعی

از GEM برای ارزیابی مدل‌های قدرتمند مانند GPT-5، Gemini 2.5 Pro و Claude Sonnet-4 استفاده شد:

  • در محیط MCP (پایگاه داده PostgreSQL): GPT-5 بالاترین نرخ موفقیت را داشت.
  • در محیط ترمینال (Docker): GPT-5 سریع‌ترین و دقیق‌ترین عامل بود.

💡 جمع‌بندی

GEM یک زیرساخت بنیادین برای ورود LLMها به عصر یادگیری از تجربه است.
ویژگی‌های برجسته آن عبارت‌اند از:

  • طراحی ماژولار و قابل‌گسترش
  • پشتیبانی از تعاملات بلندمدت و ابزارمحور
  • ادغام آسان با سیستم‌های آموزش RL
  • و عملکرد عالی الگوریتم REINFORCE+ReBN در آموزش عامل‌های هوشمند.

دانلود مقاله کامل:

پیام بگذارید