این مقاله با عنوان «GEM: A Gym for Agentic LLMs» به معرفی چارچوبی جدید برای آموزش و ارزیابی مدلهای زبانی عاملمحور از طریق یادگیری تقویتی (RL) میپردازد. در ادامه خلاصهی جامع آن تقدیم می شود:

🎯 هدف پژوهش
با رشد سریع مدلهای زبانی بزرگ (LLMها)، نیاز به چارچوبی برای آموزش از طریق تجربه و تعامل احساس میشود؛ مشابه کاری که OpenAI Gym برای یادگیری تقویتی سنتی انجام داد.
این مقاله چارچوبی به نام GEM (General Experience Maker) معرفی میکند — یک پلتفرم متنباز که امکان آموزش، آزمایش و ارزیابی عاملهای زبانی در محیطهای پیچیده و چندمرحلهای را فراهم میکند.
⚙️ ویژگیهای اصلی GEM
- رابط استاندارد شبیه به OpenAI Gym:
دارای توابعreset()وstep()برای تعامل ساده بین عامل و محیط. - پشتیبانی از محیطهای چندمرحلهای (multi-turn):
شامل بازیها، حل مسائل ریاضی، برنامهنویسی، استدلال، پرسشوپاسخ، و کار با ترمینال. - قابلیت استفاده از ابزارها (Tool Integration):
- ابزار Python برای اجرای کد
 - ابزار Search برای جستوجوی اطلاعات
 - پشتیبانی از Model Context Protocol (MCP) برای اتصال به هر ابزار خارجی.
 
 - اجرای همزمان و برداری (Asynchronous Vectorization):
برای افزایش سرعت جمعآوری تجربه و کاهش تأخیر. - قابلیت توسعه آسان:
با سیستم wrapperها و ثبت محیطهای جدید تنها با چند خط کد. - سازگاری با فریمورکهای محبوب RL:
از جمله Oat، Verl، OpenRLHF، ROLL و RL2. 
🧠 نوآوری الگوریتمی
مقاله علاوه بر معرفی GEM، یک نسخه بهبود یافته از الگوریتم REINFORCE را پیشنهاد میکند به نام
REINFORCE + Return Batch Normalization (ReBN).
📌 ویژگیها:
- بر خلاف الگوریتم GRPO، با پاداشهای پیوسته (dense) و تخفیفهای دلخواه (γ ≤ 1) سازگار است.
 - یادگیری پایدارتری ارائه میدهد بدون نیاز به «critic» یا ساختار پیچیده محاسبه مزیت.
 - در آزمایشها عملکردی قویتر یا همسطح PPO و GRPO داشت.
 
🔍نتایج تجربی
GEM برای ۲۴ محیط مختلف آزمایش شد در پنج دسته:
- بازیها (مانند Minesweeper، Sudoku)
 - استدلال (ReasoningGym)
 - کدنویسی
 - ریاضی با ابزار پایتون
 - پرسشوپاسخ با ابزار جستوجو
 
⚙️نتایج کلیدی:
- ReBN در بیشتر محیطها از GRPO و PPO بهتر عمل کرد.
 - در محیطهای چندمرحلهای، GRPO دچار ضعف در انتساب پاداش بود.
 - کاهش ضریب تخفیف (γ) باعث شد عاملها سریعتر و کارآمدتر عمل کنند (مثلاً کشف خودکار الگوریتم جستوجوی دودویی).
 - استفاده از ابزارهای Python و Search موجب افزایش دقت ۱۰–۲۰٪ در ریاضیات و QA شد.
 - GEM توانست بهراحتی به پنج فریمورک مختلف آموزش متصل شود و کارایی مشابهی ارائه دهد.
 
🔍 ارزیابی عاملهای واقعی
از GEM برای ارزیابی مدلهای قدرتمند مانند GPT-5، Gemini 2.5 Pro و Claude Sonnet-4 استفاده شد:
- در محیط MCP (پایگاه داده PostgreSQL): GPT-5 بالاترین نرخ موفقیت را داشت.
 - در محیط ترمینال (Docker): GPT-5 سریعترین و دقیقترین عامل بود.
 
💡 جمعبندی
GEM یک زیرساخت بنیادین برای ورود LLMها به عصر یادگیری از تجربه است.
ویژگیهای برجسته آن عبارتاند از:
- طراحی ماژولار و قابلگسترش
 - پشتیبانی از تعاملات بلندمدت و ابزارمحور
 - ادغام آسان با سیستمهای آموزش RL
 - و عملکرد عالی الگوریتم REINFORCE+ReBN در آموزش عاملهای هوشمند.
 
دانلود مقاله کامل: