پرش به محتوا پرش به پاورقی

ترکیب استدلال: تغییر حالت‌ها برای تفکر

در ادامه خلاصه‌ای از مقاله در 9 بخش تقدیم حضور شما خواهد شد.

1 — چکیده (مختصر)

MixReasoning پیشنهاد می‌کند هنگام تولید زنجیرهٔ استدلال (chain-of-thought) در یک پاسخ، به‌جای «همیشه تفصیل» یا «همیشه مختصر»، به‌صورت پویا بین دو حالت (تفصیلی = thinking و مختصر = non-thinking) جابه‌جا شود. جابه‌جایی با استفاده از یک LoRA سبک انجام می‌شود و نقاط سوئیچ مبتنی بر عدم‌قطعیت سطح توکن (token-level entropy) است؛ در نتیجه ریزّسازی تفکر فقط در گلوگاه‌های تصمیمی انجام می‌شود و ردۀ کلی پاسخ‌ها کوتاه‌تر و قابل‌خوانش‌تر می‌ماند، در حالی که دقت حفظ یا بهبود می‌یابد.

2 — ایدهٔ اصلی

  • مشاهدهٔ کلیدی: سختی مراحلِ مختلف در یک زنجیرهٔ استدلال همگن نیست — چند گام تعیین‌کننده و بسیاری گامِ ساده وجود دارد.
  • هدف: «فقط آن‌جا که لازم است» تفصیلی فکر کن؛ بقیه را خلاصه نگه دار.
  • مکانیزم: نگهداری یک مدل پایه‌ی ثابت و یک LoRAِ مختصر که با پارامتر اسکِیلِ (α) قابل تنظیم است تا در زمان اجرا حالتِ مدل از concise↔detailed تغییر کند.

3 — روش (تفصیلی)

3.1 LoRA-محور برای کنترل حالت‌ها
  • با fine-tuning سبک LoRA روی نسخه‌های «کوتاه» رِیشنال‌ها، یک adapter به‌دست می‌آید که مدل را به تولید ریزّسازی کمتر تمایل می‌دهد.
  • در زمان استنتاج، با تغییر ضریب LoRA (α) بین α_low (تفصیلی) و α_high (مختصر) بین حالات سوئیچ می‌کنند.
3.2 سوئیچ مبتنی بر عدم‌قطعیت توکنی
  • برای هر گام، انتروپی توزیع توکن بعدی H_t محاسبه می‌شود (نرمال‌شده). اگر H_t ≥ τ↑ آستانه، پنجرهٔ نامطمئن W_t = [t−B, t+F] باز شده، از مرز چپ بازگردانی شده و آن بازه با حالت تفصیلی (α_low) دوباره رِژنِریت می‌شود.
  • برای جلوگیری از نوسان، از هیسترزیس با آستانهٔ پایین‌تر τ↓ استفاده می‌شود؛ یعنی تا زمانی که H_t > τ↓ در حالت تفصیلی می‌مانند. این دو پارامتر (τ و اندازهٔ پنجره) نقش «نوبت‌کنترلِ بودجه» را بازی می‌کنند.
3.3 بازاستفادهٔ KV-cache و هزینهٔ Prefill
  • چون فقط LoRA تغییر وضعیت می‌دهد و مدل پایه ثابت می‌ماند، می‌توان کش توجه (KV) را تا حد زیادی بازاستفاده کرد و تنها بخش کوچکِ پیش‌پُر (prefill) برای بازهٔ تازهٔ تفصیلی محاسبه می‌شود؛ بنابراین هزینهٔ عملیاتی سوئیچ محدود و کنترل‌شدنی است. افزون بر این، اگر LoRA فقط روی MLPها اعمال شود (نه K/V attention)، بازاستفادهٔ کاملِ KV ممکن است.

4 — تنظیمات آزمایشی

  • مدل‌ها: QwQ-32B-Preview، Qwen-3-14B، Qwen-3-8B.
  • بنچمارک‌ها: GSM8K (ریاضیات پایه)، Math-500، AIME24 (مسائل رقابتی).
  • مقایسه با چند baseline شامل: Long CoT اصلی و روش‌های فشرده‌سازی طولی (Prompting، CoT-Valve، DEER، NoWait، ConciseHint).

5 — نتایج کلیدی

  • بهبود مرز دقت–کارایی: MixReasoning معمولاً طولِ زنجیره‌ها را به‌طور چشمگیر کاهش می‌دهد و در بسیاری موارد دقت را نیز افزایش یا لااقل حفظ می‌کند. نمونهٔ شاخص: روی QwQ-32B در GSM8K میانگین توکن‌ها از 750.3 → 400.5 کاهش یافت و دقت از 95.12% → 96.13% افزایش یافت. روی سایر مدل‌ها و دیتاست‌ها نیز کاهش توکن و دقتِ برابر یا بهتر گزارش شده است.
  • کنترل‌پذیری: دو «ولوم» زمان اجرا (آستانهٔ عدم‌قطعیت τ↑ و اندازهٔ پنجره W) امکان تعیین صریح میزان پوشش حالت تفصیلی و در نتیجه تعادل دقت/بودجه را فراهم می‌کنند.
  • نتیجهٔ عملیاتی: در مقایسه با روش‌های فشرده‌سازیِ یکنواخت، MixReasoning در نمودار دقت-درمقابل-توکن (Pareto) جلوتر قرار می‌گیرد؛ همچنین گاهی یک روند U-شکل نشان می‌دهد که زنجیره‌های خیلی طولانی می‌توانند عملکرد را بدتر کنند و کوتاه‌سازی هوشمندانه سودبخش است.

6 — یافته‌های اصلی مقاله

  1. بخش بزرگی از زنجیره‌های طولانی زائد است و می‌توان با انتخاب محلیِ نقاطِ تفصیلی، هزینه را کاهش داد.
  2. LoRA سبک راهکار عملی برای الحاق حالت «مختصر» به مدل پایه است و با تغییر ضریب در زمان اجرا می‌توان بین حالات جابه‌جا شد بدون فرِتینگ (forgetting) مدل پایه.
  3. توزیع انتروپی توکن‌ها سیگنال درون‌مدلی مفیدی برای شناسایی گلوگاه‌های تصمیمی است؛ با بازتولید پنجره‌ایِ آن نقاط، می‌توان تفصیلی‌سازی را متمرکز کرد.

7 — محدودیت‌ها و کارهای آینده

  • کنترل فعلی مبتنی بر آستانه و انتروپی «آموزش‌ندیده» است و ممکن است نسبت به کالیبراسیون یا وابستگی‌های غیربومی حساس باشد. نویسندگان پیشنهاد می‌کنند سیاست‌های یادگرفته‌شده (RL یا imitation learning) یا ترکیب با routingِ سطح-مسئله و speculative decoding را بررسی کنند.

8 — جزئیات پیاده‌سازی

  • LoRA روی داده‌های GSM8K (train) با رنک 2 و α=8 آموزش داده شده؛ batch=64، تا 10 اپوک؛ آموزش روی 4×A100-80GB انجام شده.
  • برای گزارش‌ها از flexible-match metric استفاده شده (استخراج مقدار داخل \boxed{} یا در غیاب آن آخرین عدد پاسخ). حداکثر توکن‌ها نیز بسته به مدل/بنچمارک متفاوت تنظیم شده است.

9 — پیام نهاییِ کوتاه

MixReasoning راهکار عملی و قابل‌پیاده‌سازی‌ای برای «فکر کردن جایی که اهمیت دارد» ارائه می‌دهد: با سوئیچ LoRA در زمان اجرا و تصمیم‌گیری بر اساس انتروپی توکن، زنجیره‌های استدلال کوتاه‌تر، خواناتر و در عمل کارا می‌شوند، بدون نیاز به سروِ چند مدل یا رِتِرِینِ کاملِ وزن‌ها.

دانلود کامل مقاله:

پیام بگذارید