در ادامه خلاصهٔ مقالهٔ Cache-to-Cache: Direct Semantic Communication Between Large Language Models (C2C, 2025) را    ارائه میکنیم.

۱. چکیدهٔ کلی
این مقاله از تیم مشترک دانشگاههای Tsinghua, CUHK و Shanghai AI Lab معرفیکنندهٔ یک پارادایم جدید برای ارتباط مستقیم بین مدلهای زبانی بزرگ (LLMها) است. ایدهٔ اصلی آن، جایگزینی ارتباط متنی (Text-to-Text) با ارتباط در سطح حافظهٔ درونی مدل (KV-Cache) است تا تبادل معنا بهصورت مستقیم و بدون تولید توکنهای متنی انجام شود. روش پیشنهادی با نام Cache-to-Cache (C2C)، کیفیت پاسخ را تا 10٪ و سرعت را تا 2 برابر نسبت به روشهای متنی افزایش میدهد.
.
🧠 ۲. مسئله و انگیزه
ارتباط چندمدلی (Multi-LLM) معمولاً از طریق تولید و خواندن متن صورت میگیرد. این روش سه مشکل اصلی دارد:
- گلوگاه اطلاعاتی: فشردهسازی نمایشهای درونی غنی به توکنهای خطی باعث از بین رفتن معنا میشود.
 - ابهام زبانی: زبان طبیعی برای انتقال دقیق دانش ناکافی است.
 - تأخیر زیاد: تولید توکنبهتوکن متن باعث کندی تبادل میشود.
 
.
پرسش کلیدی پژوهش:
آیا مدلهای زبانی میتوانند فراتر از متن، مستقیماً از طریق بازنماییهای درونی (Cache) با یکدیگر ارتباط برقرار کنند؟
⚙️ ۳. روششناسی C2C
🔹 ۳.۱ ایدهٔ پایه
در C2C، حافظهٔ Key-Value Cache مدل مبدأ (Sharer) به فضای مدل مقصد (Receiver) نگاشت (project) میشود.
سپس این دو بازنمایی با Fuser Network ادغام میشوند. نتیجه، یک KV-Cache غنیتر و حاوی معناهای دو مدل است.
🔹 ۳.۲ ساختار Fuser
فیوژر سه بخش اصلی دارد:
- Projection Layer → فشردهسازی و ترکیب بردارهای Sharer و Receiver.
 - Dynamic Weighting → وزندهی تطبیقی بر اساس محتوای ورودی.
 - Learnable Gating → مکانیزم دروازهای قابل یادگیری برای انتخاب لایههایی که باید ترکیب شوند.
 
🔹 ۳.۳ آموزش
مدلهای Sharer و Receiver ثابتاند؛ تنها Fuser آموزش میبیند.
آموزش با زیان پیشبینی توکن بعدی (next-token prediction loss) مشابه SFT انجام میشود.
.
🔍 ۴. آزمایشهای کلیدی
🔸 ۴.۱ آزمون Oracle
دو سؤال بررسی شد:
- آیا غنیسازی Cache بدون افزایش طول دنباله مفید است؟ ✅ بله.
 - آیا Cache یک مدل قابلاستفاده در مدل دیگر است؟ ✅ بله، با نگاشت MLP سهلایه.
 
نتیجه: بازنماییهای KV-Cache از مدلهای مختلف قابل تبدیل و مکملاند.
🔸 ۴.۲ پیکربندی آزمایشی
- مدلها: Qwen3، Llama3.2، Gemma3
 - دادهها: MMLU-Redux, ARC-C, OpenBookQA, C-Eval
 - مقایسه با: Text-to-Text (T2T) و Query Routing
 
.
📊 ۵. نتایج عددی
| نوع ارتباط | میانگین بهبود دقت | سرعت (میانگین) | 
|---|---|---|
| مدل منفرد | — | — | 
| Text-to-Text | +3–5٪ نسبت به مدل منفرد | 1× | 
| Cache-to-Cache (C2C) | +8.5–10.5٪ نسبت به مدل منفرد، +3–5٪ نسبت به T2T | ۲× سریعتر | 
نمونه: در ترکیب Qwen3-0.6B (گیرنده) با Qwen2.5-0.5B (فرستنده)، دقت در مجموعه OpenBook از 44٪ → 52.6٪ و زمان از 0.81 → 0.30 کاهش یافت.
.
۶. تحلیلهای تکمیلی
- افزایش بُعد مؤثر (Effective Rank) در فضای معنایی پس از فیوژن (از 388→395 در K و از 532→560 در V).
 - رفتار تدریجی: با افزایش درصد KV-Cache ترکیبی بالاتر از ۵۰٪، دقت بهطور پیوسته افزایش مییابد.
 - همترازی توکن و لایه: همترازی پایانی (terminal alignment) برای حفظ معنای لایههای عمیق استفاده شده است.
 
.
۷. مزایا و مقایسه با روشهای دیگر
| جنبه | Text-to-Text | Query Routing | Cache-to-Cache (C2C) | 
|---|---|---|---|
| دقت | متوسط | وابسته به انتخاب مدل | بیشترین (تا +10%) | 
| سرعت | کند (تولید متنی) | سریع | ۲× سریعتر از T2T | 
| حفظ معنا | ناقص (فشردهسازی متنی) | محدود | کاملتر، انتقال مستقیم دانش | 
| هزینه محاسباتی | بالا | متوسط | پایین و مقیاسپذیر | 
.
⚖️ ۸. محدودیتها و مسیر آینده
- نیاز به همترازی دقیق Tokenizer و لایهها میان مدلها.
 - فعلاً فقط برای زبان و متن آزمایش شده است.
 
📈 مسیرهای آینده:
- همکاری Cloud–Edge با اشتراک Cache بدون افشای داده.
 - ادغام با Speculative Decoding و Token-Level Routing.
 - گسترش به مدلهای چندوجهی (Vision-Language-Action) برای ادراک و تصمیم چندحسی.
 
.
🚀 ۹. نتیجهگیری
C2C نشان میدهد که مدلهای زبانی میتوانند مستقیماً در سطح معنا با هم گفتگو کنند.
این رویکرد، بنیانی برای نسل بعدی سیستمهای چند-مدلی با کارایی بالا و تأخیر پایین است—حرکتی از «گفتوگو با واژهها» به «همفکری با بازنماییها».