مقاله ای که مشاهده می کنید کار تیم هوش مصنوعی شرکت Meta است. ایده جالبی مطرح شده است که در ادامه مشاهده می فرمایید. در آخر نیز اصل مقاله را مثل همیشه برای دانلود در اختیار شما قرار دادیم.

عنوان: Agent Learning via Early Experience
نویسندگان: Kai Zhang و همکاران، Meta Superintelligence Labs، FAIR at Meta، The Ohio State University (2025)

🎯 مسئله

آموزش عامل‌های زبانی (Language Agents) با یادگیری تقویتی دشوار است چون بسیاری از محیط‌ها پاداش قابل‌اعتبار ندارند یا بازه‌ی تصمیم‌گیری بسیار طولانی دارند. روش فعلی (یادگیری تقلیدی با داده‌ی انسانی) نیز گران، محدود و غیرقابل تعمیم است.

💡 ایده‌ی اصلی

ارائه‌ی پارادایم جدیدی به نام “تجربه‌ی اولیه (Early Experience)”
↳ حالتی میان یادگیری تقلیدی (Imitation Learning) و یادگیری تقویتی (Reinforcement Learning)

عامل با انجام عمل‌های خود و مشاهده‌ی وضعیت‌های آینده (Future States) می‌آموزد؛
یعنی بدون پاداش بیرونی، از پیامد اعمال خودش یاد می‌گیرد.

.

⚙️ دو روش پیشنهادی

Implicit World Modeling (مدلسازی ضمنی جهان):
عامل یاد می‌گیرد با پیش‌بینی وضعیت بعدی محیط، دینامیک محیط را درونی کند.
→ نوعی پیش‌آموزش سبک و مقاوم در برابر خطای توزیع.
Self-Reflection (خودبازنگری):
عامل با مقایسه‌ی اعمال خود و عمل کارشناس، توضیح می‌دهد چرا عمل کارشناس بهتر است.
→ استدلال زبانی و تصحیح تصمیم‌های اشتباه را یاد می‌گیرد.

💡آزمایش‌ها

روی ۸ محیط متنوع شامل ناوبری، استفاده از ابزار، وب‌گردی و برنامه‌ریزی بلندمدت
با سه مدل مختلف از خانواده‌های Llama و Qwen
شاخص‌ها: نرخ موفقیت، تعمیم خارج از دامنه (OOD)، و بهبود پس از RL

.

📈 نتایج کلیدی

میانگین بهبود نسبت به یادگیری تقلیدی:
+9.6٪ در موفقیت، +9.4٪ در تعمیم خارج از دامنه
به‌کارگیری این روش قبل از RL باعث افزایش کارایی RL تا +6.4٪ شد.
با نصف داده‌ی انسانی، عملکردی مشابه یا بهتر از حالت کامل حاصل شد.
قابل‌گسترش در مدل‌های بزرگ (تا 70B پارامتر).

.

🎯 جمع‌بندی و اهمیت

پارادایم تجربه‌ی اولیه پلی میان دوران داده‌ی انسانی (Imitation Learning) و دوران تجربه‌ی واقعی (Reinforcement Learning) است.
عامل می‌تواند بدون پاداش خارجی، از تجربیات خود یاد بگیرد و پایه‌ای قوی برای یادگیری تقویتی آینده بسازد.

یادگیری عامل از طریق تجربهٔ اولیه

🎯 مسئله

💡 ایده‌ی اصلی

⚙️ دو روش پیشنهادی

💡آزمایش‌ها

📈 نتایج کلیدی

🎯 جمع‌بندی و اهمیت

⚠️ محدودیت‌ها و مسیر آینده

پیام بگذارید لغو پاسخ

شما همچنین ممکن است دوست داشته باشید

دفاع از یک شهر در برابر حملات چند پهپادی: رویکرد بازی‌های امنیتی استکلبرگ ترتیبی

کواَکت – بالاترین امتیاز در مقالات CUA