معرفی مدل Diffusion Gemma

امیر شادمان 26 خرداد 1405

DiffusionGemma یک مدل مولد است که توسط Google DeepMind ساخته شده است. DiffusionGemma بر اساس معماری 26B A4B Mixture-of-Experts (MoE) Gemma 4، توکن‌ها را با استفاده از انتشار گسسته تولید می‌کند. این مدل با وزن‌های باز، چندوجهی است و ورودی‌های متن، تصویر و ویدیو را برای تولید خروجی متن مدیریت می‌کند.

DiffusionGemma که بر پایه MoE ساخته شده است، برای بهبود سرعت تولید (توکن در ثانیه) طراحی شده است و در عین حال در محیط‌های سخت‌افزاری مختلف قابل استفاده است. DiffusionGemma بر اساس پیشرفت‌های معماری و قابلیت‌های Gemma 4 ساخته شده و چندین ویژگی اصلی را معرفی می‌کند:

مرور کلی مدل


DiffusionGemma برای کاهش تنگناهای متوالی مدل‌های زبان سببی استاندارد طراحی شده است. این مدل از یک معماری رمزگذار-رمزگشا که به طور خاص برای سرعت استنتاج بهینه شده است، استفاده می‌کند.

رمزگشا با ظرفیت پیش از پر کردن عمل می‌کند، اعلان اولیه را پردازش می‌کند و حافظه پنهان KV را تولید می‌کند. سپس رمزگشا از توجه دو طرفه برای پردازش یک بلوک ورودی (یک «بوم») از توکن‌ها استفاده می‌کند و از طریق توجه متقابل به زمینه ذخیره شده دسترسی پیدا می‌کند.

در طول استنتاج، DiffusionGemma از نمونه‌گیری چند بوم استفاده می‌کند. به جای تولید یک توکن در هر زمان، مدل به طور تکراری یک بلوک کامل از توکن‌ها را با استفاده از یک نمونه‌گیر انتشار، نویززدایی می‌کند. هنگامی که یک بوم به طور کامل نویززدایی شد، توسط رمزگذار پردازش شده و به حافظه پنهان KV اضافه می‌شود، پس از آن مدل بوم بعدی را تولید می‌کند. این رویکرد خودرگرسیونی بلوکی، تولید متن را با سرعت بالاتر تسهیل می‌کند.

جدول مشخصات مدل

کل پارامترها۲۵/۲ میلیارد
پارامترهای فعال۳/۸ میلیارد
لایه‌ها۳۰
پنجره لغزان۱۰۲۴ توکن
طول متنبیش از ۲۵۶ هزار توکن
طول بوم۲۵۶
اندازه واژگان۲۶۲ هزار
تعداد متخصصان۸ عدد فعال/مجموعا ۱۲۸ عدد و یک مشترک
انواع پشتیبانی از ورودیمتن/عکس
پارامترهای رمزگشای تصویریحدود ۵۵۰ میلیون

نتایج ارزیابی

این مدل‌ها در برابر مجموعه‌ای بزرگ از مجموعه داده‌ها و معیارهای مختلف ارزیابی شدند تا جنبه‌های مختلف تولید متن را پوشش دهند. نتایج ارزیابی مشخص شده در جدول برای مدل‌های تنظیم‌شده با دستورالعمل، با نمونه‌گیر توصیه‌شده‌ی Entropy Bound (EB) (به بهترین شیوه‌ها در زیر مراجعه کنید) هستند.

BenchmarkDiffusionGemma 26B A4BGemma 4 26B A4B
MMLU Pro77.6%82.6%
AIME 2026 no tools69.1%88.3%
LiveCodeBench v669.1%77.1%
Codeforces ELO14291718
GPQA Diamond73.2%82.3%
Tau2 (average over 3)56.2%68.2%
HLE no tools11.0%8.7%
HLE with search11.9%17.2%
BigBench Extra Hard47.6%64.8%
MMMLU81.5%86.3%
Vision
MMMU Pro54.3%73.8%
OmniDocBench 1.5 (average edit distance, lower is better)0.3190.149
MATH-Vision70.5%82.4%
MedXPertQA MM49.0%58.1%
Long Context
MRCR v2 8 needle 128k (average)32.0%44.1%

قابلیت‌های اصلی


DiffusionGemma طیف گسترده‌ای از وظایف را در متن و بینایی انجام می‌دهد. قابلیت‌های کلیدی عبارتند از:

شروع کار


شما می‌توانید از تمام مدل‌های Gemma 4 با آخرین نسخه Transformers استفاده کنید. برای شروع، وابستگی‌های لازم را در محیط خود نصب کنید:

pip install -U transformers torch accelerate

وقتی همه چیز را نصب کردید، می‌توانید مدل را با کد زیر بارگذاری کنید:

from transformers import DiffusionGemmaForBlockDiffusion, AutoProcessor

MODEL_ID = "google/diffusiongemma-26B-A4B-it"

Load model

processor = AutoProcessor.from_pretrained(MODEL_ID)
model = DiffusionGemmaForBlockDiffusion.from_pretrained(
MODEL_ID,
dtype="auto",
device_map="auto",
)

بهترین شیوه‌ها


برای بهترین عملکرد، از این پیکربندی‌ها و بهترین شیوه‌ها استفاده کنید:

۱. تنظیمات نمونه‌برداری انتشار
از پیکربندی نمونه‌برداری استاندارد زیر در تمام موارد استفاده استفاده کنید:

بهترین شیوه‌ها
برای بهترین عملکرد، از این پیکربندی‌ها و بهترین شیوه‌ها استفاده کنید:

۱. تنظیمات نمونه‌برداری انتشار
از پیکربندی نمونه‌برداری استاندارد زیر در تمام موارد استفاده استفاده کنید:

۲. پیکربندی حالت تفکر
مشابه مدل‌های Gemma 4، ما از نقش‌های استاندارد سیستم، دستیار و کاربر استفاده می‌کنیم. برای مدیریت صحیح فرآیند تفکر، از توکن‌های کنترلی زیر استفاده کنید:

توجه داشته باشید که بسیاری از کتابخانه‌ها مانند transformers پیچیدگی‌های قالب چت را برای شما مدیریت می‌کنند.

۳. مکالمات چند نوبتی
بدون محتوای تفکر در تاریخچه: در مکالمات چند نوبتی، خروجی مدل تاریخی فقط باید شامل پاسخ نهایی باشد. افکار مربوط به نوبت‌های مدل قبلی نباید قبل از شروع نوبت بعدی کاربر اضافه شوند.

۴. ترتیب حالت
برای عملکرد بهینه با ورودی‌های چند حالته، محتوای تصویر را قبل از متن در اعلان خود قرار دهید.

۵. وضوح تصویر متغیر
گذشته از نسبت‌های ابعاد متغیر، DiffusionGemma از طریق یک بودجه توکن بصری قابل تنظیم، از وضوح تصویر متغیر پشتیبانی می‌کند که تعداد توکن‌های مورد استفاده برای نمایش یک تصویر را کنترل می‌کند. بودجه توکن بالاتر، جزئیات بصری بیشتری را با هزینه محاسبات اضافی حفظ می‌کند، در حالی که بودجه پایین‌تر، استنتاج سریع‌تر را برای کارهایی که نیازی به درک دقیق ندارند، امکان‌پذیر می‌سازد.

۶. طول ویدیو
همه مدل‌ها از ورودی‌های تصویر پشتیبانی می‌کنند و می‌توانند ویدیوها را به صورت فریم پردازش کنند. ویدیو حداکثر ۶۰ ثانیه را پشتیبانی می‌کند، با فرض اینکه تصاویر با سرعت یک فریم در ثانیه پردازش می‌شوند.

داده‌های مدل


داده‌های مورد استفاده برای آموزش مدل و نحوه پردازش داده‌ها. مجموعه داده‌های آموزشی


مجموعه داده‌های پیش‌آموزشی ما مجموعه‌ای متنوع و در مقیاس بزرگ از داده‌ها است که طیف وسیعی از حوزه‌ها و روش‌ها را شامل می‌شود و شامل اسناد وب، کد، تصاویر، صدا و تاریخ انقضای ژانویه ۲۰۲۵ می‌شود. اجزای کلیدی عبارتند از:

ترکیب این منابع داده متنوع برای آموزش یک مدل چندوجهی قدرتمند که می‌تواند طیف گسترده‌ای از وظایف و قالب‌های داده مختلف را مدیریت کند، بسیار مهم است.

پیش‌پردازش داده‌ها


در اینجا روش‌های کلیدی پاکسازی و فیلتر کردن داده‌ها که بر روی داده‌های آموزشی اعمال می‌شوند، آورده شده است:

اخلاق و ایمنی


با تبدیل شدن مدل‌های باز به هسته اصلی زیرساخت‌های سازمانی، منشأ و امنیت از اهمیت بالایی برخوردار می‌شوند. DiffusionGemma که توسط Google DeepMind توسعه داده شده است، همان ارزیابی‌های ایمنی دقیقی را که مدل‌های اختصاصی Gemini ما انجام می‌دهند، پشت سر می‌گذارد.

رویکرد ارزیابی


DiffusionGemma با همکاری تیم‌های ایمنی داخلی و هوش مصنوعی مسئول توسعه داده شد. طیف وسیعی از ارزیابی‌های خودکار و همچنین انسانی برای کمک به بهبود ایمنی مدل انجام شد. این ارزیابی‌ها با اصول هوش مصنوعی گوگل و همچنین سیاست‌های ایمنی همسو هستند که هدف آنها جلوگیری از تولید محتوای مضر توسط مدل‌های هوش مصنوعی مولد ما، از جمله موارد زیر است:


نتایج ارزیابی


در تمام زمینه‌های آزمایش ایمنی، ما شاهد پیشرفت‌های عمده‌ای در تمام دسته‌های ایمنی محتوا نسبت به نسل‌های قبلی مدل‌های Gemma بودیم. به طور کلی، DiffusionGemma، مانند مدل‌های Gemma 4، در بهبود ایمنی به طور قابل توجهی از مدل‌های Gemma 3 و 3n بهتر عمل می‌کند، در حالی که امتناع‌های ناموجه را کم نگه می‌دارد. تمام آزمایش‌ها عمداً بدون فیلترهای ایمنی انجام شد تا قابلیت‌های خام مدل و رفتارهای پایه ارزیابی شوند. برای هر دو مدل تبدیل متن به متن و تبدیل تصویر به متن، و در تمام اندازه‌های مدل، این مدل حداقل نقض سیاست را ایجاد کرد و پیشرفت‌های قابل توجهی نسبت به مدل‌های قبلی Gemma نشان داد.

کاربرد و محدودیت‌ها


این مدل‌ها محدودیت‌های خاصی دارند که کاربران باید از آنها آگاه باشند.

کاربرد مورد نظر


مدل‌های چندوجهی (که قادر به پردازش بینایی، زبان و/یا صدا هستند) طیف گسترده‌ای از کاربردها را در صنایع و حوزه‌های مختلف دارند. فهرست کاربردهای بالقوه زیر جامع نیست. هدف از این فهرست ارائه اطلاعات زمینه‌ای در مورد موارد استفاده احتمالی است که سازندگان مدل به عنوان بخشی از آموزش و توسعه مدل در نظر گرفته‌اند.

محدودیت‌ها

ملاحظات و خطرات اخلاقی


در ایجاد یک مدل باز و مبتنی بر زبان بصری، موارد زیر را با دقت در نظر گرفته‌ایم:

خطرات شناسایی شده و راهکارهای کاهش آنها:

مزایا


در زمان انتشار، این یک مدل زبان بینایی باز با تأخیر کم و عملکرد بالا است که گزینه‌ای جذاب برای توسعه‌دهندگان و علاقه‌مندان به تحقیق در مورد مدل‌های زبان انتشار ارائه می‌دهد. این مدل در مقایسه با مدل‌های با اندازه مشابه، از پایه برای توسعه هوش مصنوعی مسئولانه طراحی شده است.

مرجع

دیدگاه شما

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *