HunyuanImage3 یک مدل چندوجهی بومی پیشگام است که درک و تولید چندوجهی را در یک چارچوب خودهمبسته (اتو رگرسیو) یکپارچه میکند که این ماژول تبدیل متن به تصویر را به عملکردی قابل مقایسه یا فراتر از مدلهای متنباز پیشرو تبدیل میکند.

✨ ویژگیهای کلیدی HunyuanImage3
- 🧠 معماری چندوجهی یکپارچه: HunyuanImage-3.0با فراتر رفتن از معماریهای رایج مبتنی بر diffusion transformer(DiT)، از یک چارچوب خودهمبستگی یکپارچه استفاده میکند. این طراحی، مدلسازی مستقیمتر و یکپارچهتری از حالتهای متن و تصویر را امکانپذیر میکند و منجر به تولید تصویر به طرز شگفتآوری مؤثر و غنی از نظر بافت میشود.
 - 🏆 بزرگترین مدل تولید تصویر MoE: این بزرگترین مدل تولید تصویر متنباز ترکیب متخصصین یا Mixture of Experts (MoE) تا به امروز است. این مدل دارای ۶۴ متخصص و در مجموع ۸۰ میلیارد پارامتر است که ۱۳ میلیارد پارامتر به ازای هر توکن فعال میشود و ظرفیت و عملکرد آن را به طور قابل توجهی افزایش میدهد.
 - 🎨 عملکرد برتر تولید تصویر: از طریق گردآوری دقیق مجموعه دادهها و یادگیری تقویتی پیشرفته پس از آموزش، به تعادل بهینهای بین دقت معنایی و برتری بصری دست یافته است. این مدل در عین ارائه تصاویر واقعگرایانه با کیفیت زیباییشناختی خیرهکننده و جزئیات دقیق، پایبندی سریع و استثنایی را نشان میدهد.
 
- 💭 استدلال هوشمند مبتنی بر دانش جهانی: معماری چندوجهی یکپارچه، HunyuanImage-3.0 را به قابلیتهای استدلال قدرتمندی مجهز میکند. این نرمافزار از دانش گسترده خود برای تفسیر هوشمندانه قصد کاربر بهره میبرد و به طور خودکار پیامهای پراکنده را با جزئیات متناسب با متن، شرح میدهد تا خروجیهای بصری برتر و کاملتری تولید کند.
 
🛠️ وابستگیها و نصب
💻 الزامات سیستم
- 🖥️ سیستم عامل: لینوکس
 - 🎮 پردازنده گرافیکی: پردازنده گرافیکی انویدیا با پشتیبانی از CUDA
 - 💾 فضای دیسک: ۱۷۰ گیگابایت برای وزنهای مدل
 - 🧠 حافظه پردازنده گرافیکی: ≥۳×۸۰ گیگابایت (۴×۸۰ گیگابایت برای عملکرد بهتر توصیه میشود)
 
📦 تنظیمات محیط اجرای برنامه
- 🐍 پایتون: ۳.۱۲+ (توصیه شده و آزمایش شده)
 - 🔥 پایتورچ: ۲.۷.۱
 - ⚡ کودا: ۱۲.۸
 
📥 نصب وابستگیها
۱. ابتدا پایتورچ (نسخه CUDA12.8) را نصب کنید
pip install torch==2.7.1 torchvision==0.22.1 torchaudio==2.7.1 --index-url https://download.pytorch.org/whl/cu128
۲. سپس نصب کنید tencentcloud-sdk
pip install -i https://mirrors.tencent.com/pypi/simple/ --upgrade tencentcloud-sdk-python
۳. سپس سایر وابستگیها را نصب کنید
pip install -r requirements.txt
بهینهسازیهای عملکرد
برای استنتاج تا ۳ برابر سریعتر، این بهینهسازیها را نصب کنید:
FlashAttention برای محاسبه سریعتر مکانیسم attention
pip install flash-attn==2.8.3 --no-build-isolation
FlashInfer برای استنتاج بهینه. نسخه ۰.۳.۱ آزمایش شده است.
pip install flashinfer-python
💡نکات نصب: بسیار مهم است که نسخه CUDA مورد استفاده توسط PyTorch با نسخه CUDA سیستم مطابقت داشته باشد. FlashInfer هنگام کامپایل هستهها در زمان اجرا به این سازگاری متکی است. Pytorch 2.7.1+cu12.8آزمایش شده است. نسخه GCC حداقل ۹ برای کامپایل FlashAttention و FlashInfer توصیه میشود.
⚡ نکات مربوط به عملکرد: این بهینهسازیها میتوانند سرعت استنتاج شما را به میزان قابل توجهی افزایش دهند!
💡نکته: وقتی FlashInfer فعال باشد، ممکن است اولین استنتاج به دلیل کامپایل هسته کندتر (حدود ۱۰ دقیقه) باشد. استنتاجهای بعدی روی همان دستگاه بسیار سریعتر خواهند بود.
🚀 نحوه استفاده از HunyuanImage3
🔥 شروع سریع با Transformers
۱ – دانلود وزنهای مدل
دانلود از HuggingFace و تغییر نام دایرکتوری.
توجه داشته باشید که نام دایرکتوری نباید شامل نقطه باشد، که ممکن است هنگام بارگیری با استفاده از Transformers مشکلاتی ایجاد کند.
hf download tencent/HunyuanImage-3.0 --local-dir ./HunyuanImage-3
۲ – اجرا با transformers
from transformers import AutoModelForCausalLM
model_id = "./HunyuanImage-3"
kwargs = dict(
    attn_implementation="sdpa",
    trust_remote_code=True,
    torch_dtype="auto",
    device_map="auto",
    moe_impl="eager",
)
model = AutoModelForCausalLM.from_pretrained(model_id, **kwargs)
model.load_tokenizer(model_id)
prompt = "A brown and white dog is running on the grass"
image = model.generate_image(prompt=prompt, stream=True)
image.save("image.png")
🏠 نصب و استفاده محلی
۱ – کپی کردن مخزن HunyuanImage3
git clone https://github.com/Tencent-Hunyuan/HunyuanImage-3.0.git
cd HunyuanImage-3.0/
۲ – دانلود وزنهای مدل HunyuanImage3
hf download tencent/HunyuanImage-3.0 --local-dir ./HunyuanImage-3
۳ – اجرای نسخه آزمایشی HunyuanImage3
وزن های مدل پیشفرض به طور خودکار دستورات ورودی را بازنویسی یا بهبود نمیدهد، برای نتایج بهینه در حال حاضر، به متخصصین و توسعه دهندگان توصیه میکنیم از deepseek برای بازنویسی دستورات استفاده کنند. برای درخواست کلید API به Tencent Cloud مراجعه کنید.
# set env
export DEEPSEEK_KEY_ID="your_deepseek_key_id"
export DEEPSEEK_KEY_SECRET="your_deepseek_key_secret"
python3 run_image_gen.py --model-id ./HunyuanImage-3 --verbose 1 --sys-deepseek-prompt "universal" --prompt "A brown and white dog is running on the grass"
۴ – آرگومانهای خط فرمان
| آرگومان | توضیح | حالت پیشفرض | 
|---|---|---|
--prompt | ورودی اعلان | (الزامی) | 
--model-id | مسیر مدل | (الزامی) | 
--attn-impl | پیادهسازی مکانیسم attention  (flash-attention-2 یا sdpa)  | sdpa | 
--moe-impl | پیادهسازی MoE (eager یا flashinfer)  | eager | 
--seed | بذر تصادفی برای تولید تصویر | None | 
--diff-infer-steps | مراحل استنتاج انتشار | 50 | 
--image-size | وضوح تصویر. میتواند خودکار باشد مانند 1280×768 یا 16:9  | auto | 
--save | مسیر ذخیره تصویر | image.png | 
--verbose | سطح Verbose 0 : بدون گزارش؛ 1: گزارش اطلاعات استنتاج.  | 0 | 
--rewrite | آیا بازنویسی فعال شود | ۱ | 
--sys-deepseek-prompt | انتخاب sys-prompt (universal یا text_rendering)  | universal | 
🎨 نسخه آزمایشی تعاملی Gradio
راهاندازی یک رابط وب تعاملی برای تولید آسان متن به تصویر.
۱ – نصب gradio
pip install gradio>=4.21.0
۲ – پیکربندی محیط اجرا
# مسیر مدل خود را تنظیم کنید
export MODEL_ID="path/to/your/model"
# اختیاری: پیکربندی میزان استفاده از GPU (پیشفرض: 0،1،2،3)
export GPUS="0,1,2,3"
# اختیاری: پیکربندی میزبان و پورت (پیشفرض: 0.0.0.0:443)
export HOST="0.0.0.0"
export PORT="443"
۳ – راه اندازی رابط وب
- راه اندازی اولیه:
 
sh run_app.sh
- با بهینهسازی عملکرد:
 
sh run_app.sh --moe-impl flashinfer --attn-impl flash_attention_2
۴ – دسترسی به رابط کاربری
🌐 رابط وب: مرورگر خود را باز کنید و به آدرس http://localhost:443 (یا پورت پیکربندیشدهی خود) بروید.
🧱 کارتهای مدل
| مدل | تعداد پارامترهای مدل | دانلود | حافظه گرافیکی توصیه شده | پشتیبانی | 
|---|---|---|---|---|
| HunyuanImage-3.0 | 80 میلیارد در مجموع (13 میلیارد فعال) | https://huggingface.co/tencent/HunyuanImage-3.0 | ≥3 × 80 گیگابایت | ✅ تبدیل متن به تصویر | 
| HunyuanImage-3.0-instruct | 80 میلیارد در مجموع (13 میلیارد فعال) | https://huggingface.co/tencent/HunyuanImage-3.0 | ≥ 3 × 80 گیگابایت | ✅ تبدیل متن به تصویر ✅ خود-بازنویسی سریع ✅CoT Think  | 
نکات:
- برای استنتاج سریعتر، افزونههای افزایش عملکرد (FlashAttention، FlashInfer) را نصب کنید.
 - استنتاج چند پردازنده گرافیکی برای مدل پایه توصیه میشود.
 
📝 راهنمای پرامپت
نوشتن دستی پرامپت
وزن های پیشفرض مدل یا Pretrain Checkpoint به طور خودکار پرامپتهای(Prompt) ورودی را بازنویسی یا بهبود نمیدهد، Instruct Checkpoint میتواند پرامپتهای ورودی را با تفکر بازنویسی یا بهبود بخشد. برای نتایج بهینه در حال حاضر، توصیه میکنیم افراد از راهنمای رسمی در مورد نحوه نوشتن پرامپتهای موثر استفاده کنند.
مرجع:
https://docs.qq.com/doc/DUVVadmhCdG9qRXBU
سیستم پرامپت برای بازنویسی خودکار پرامپت
دو سیستم پرامپت را در پوشه PE گیتهاب قرار گرفته است که از DeepSeek برای بهبود خودکار ورودیهای کاربر استفاده میکنند:
- system_prompt_universal: این سیستم پرامپت، سبک عکاسی و هنری پرامپت را به یک پرامپت با جزئیات دقیق تبدیل میکند.
 
- system_prompt_text_rendering: این سیستم پرامپت، رابط کاربری یا پوستر یا متن پارمپت را به یک مدل دقیق تبدیل میکند.
 
توجه داشته باشید که این سیستم پرامپتها به زبان چینی هستند زیرا Deepseek با سیستم پرامپت چینی بهتر کار میکند. اگر میخواهید از آن برای مدل انگلیسیزبان استفاده کنید، میتوانید آن را به انگلیسی ترجمه کنید یا به نظرات موجود در فایل PE به عنوان راهنما مراجعه کنید.
نکات پیشرفته
- اولویت محتوا: ابتدا بر توصیف موضوع و عمل اصلی تمرکز کنید و سپس جزئیات مربوط به محیط و سبک را شرح دهید. یک چارچوب توصیف کلیتر عبارت است از: موضوع و صحنه اصلی + کیفیت و سبک تصویر + ترکیببندی و پرسپکتیو + نورپردازی و جو + پارامترهای فنی. کلمات کلیدی را میتوان قبل و بعد از این ساختار اضافه کرد.
 - وضوح تصویر: این مدل نه تنها از چندین وضوح پشتیبانی میکند، بلکه گزینههای وضوح خودکار و مشخص را نیز ارائه میدهد. در حالت خودکار، مدل به طور خودکار وضوح تصویر را بر اساس ورودی پیشبینی میکند. در حالت مشخص (مانند DiT(Diffusion Transformers) سنتی)، مدل وضوح تصویری را ارائه میدهد که کاملاً با وضوح انتخابی کاربر همسو است.
 
موارد بیشتر HunyuanImage3
HunyuanImage3 میتواند دستورالعملهای پیچیدهای را برای تولید تصاویر خلاقانه و با کیفیت بالا دنبال کند. در زیر چند نمونه آورده شده است.

این مدل میتواند به طور مؤثر ورودیهای متنی بسیار طولانی را پردازش کند و به کاربران این امکان را میدهد که جزئیات ظریفتر تصاویر تولید شده را به دقت کنترل کنند. دستورات گسترده امکان ثبت دقیق عناصر پیچیده را فراهم میکنند و آن را برای پروژههای پیچیدهای که نیاز به دقت و خلاقیت دارند، ایدهآل میکنند.

پرامپت: یک نمای متوسط سینمایی، زنی آسیایی را که روی صندلی در اتاقی کمنور نشسته است، به تصویر میکشد و فضایی صمیمی و تئاتری ایجاد میکند. ترکیببندی بر روی سوژه متمرکز شده و با رنگهای غنی و بافتهای پیچیده، احساسی نوستالژیک و غمانگیز را تداعی میکند
سوژه اصلی، زنی جوان آسیایی با چهرهای متفکر و رسا است که نگاهش کمی از دوربین دور است. او در حالتی آرام اما زیبا روی یک صندلی راحتی قدیمی و مزین نشسته است. روکش صندلی از مخمل قرمز تیره است و پارچه آن بافتهای پیچیده و ظریفی دارد و نشانههای کمی از فرسودگی در آن دیده میشود. او لباسی ساده و شیک به رنگ فیروزهای تیره پوشیده است که نور را به گونهای جذب میکند که بافت ریزبافت آن را نمایان میکند. پوست او نرم و مات است و نور به طرز ظریفی خطوط صورت و بازوهای او را ترسیم میکند.
اتاق اطراف با دکوراسیون قدیمی خود مشخص میشود که به حس و حال تاریخی و خاطرهانگیز آن کمک میکند. در پسزمینهی نزدیک، که به دلیل عمق میدان کم و دیافراگم f2.8 تا حدی تار شده است، دیوار با کاغذ دیواری با طرح ظریف و داماسک پوشانده شده است. پالت رنگ کلی، ترکیبی متعادل و دقیق از رنگهای فیروزهای تیره و قرمز غنی است که محیطی بصری گیرا و منسجم ایجاد میکند. کل صحنه، از الیاف روکش مبلمان گرفته تا طرحهای ظریف روی دیوار، پر از جزئیات است. نورپردازی بسیار دراماتیک و هنری است که با کنتراست بالا و بازی سایههای برجسته تعریف میشود. یک منبع نور کلیدی، که خارج از دوربین قرار گرفته است، الگوهای نورپردازی گوبو را بر روی صحنه میتاباند و اشکال پیچیدهای از نور و سایه را در سراسر زن و دیوار پشتی ایجاد میکند. این سایههای دراماتیک، حس عمق قوی و کیفیتی نمایشی ایجاد میکنند. در حالی که برخی از سایهها عمیق و مشخص هستند، برخی دیگر نرم باقی میمانند و به آرامی در اطراف سوژه قرار میگیرند و از از دست دادن جزئیات در نواحی تاریکتر جلوگیری میکنند. فوکوس نرم روی پسزمینه، حس صمیمیت را افزایش میدهد و تمام توجه را به سوژهی بیانگر جلب میکند. تصویر کلی، یک سبک عکاسی سینمایی و واقعگرایانه را ارائه میدهد.

پرامپت:یک نمای متوسط سینمایی و واقعگرایانه، گوشهای از یک خیابان شهری با کنتراست بالا را به تصویر میکشد که با تقاطع شدید نور و سایه تعریف میشود. سوژه اصلی، گوشه بیرونی یک ساختمان است که به سبکی واقعگرایانه و با اشباع کم ارائه شده است.
دیوار ساختمان که بخش عمدهای از قاب را اشغال میکند، به رنگ نارنجی گرم با بافت گچی خشن و با جزئیات دقیق رنگآمیزی شده است. نوارهای سفید افقی در سراسر سطح آن امتداد دارند. پایه ساختمان از بلوکهای سنگی بزرگ و خشن ساخته شده است که ذرات و بافت قابل مشاهدهای را نشان میدهد. در سمت چپ و روشن ساختمان، یک پنجره با کرکرههای بسته و تیره رنگ وجود دارد. در مجاورت پنجره، یک چراغ آویز سیاه ساده از یک طناب نازک و محکم آویزان است و سایهای متمایز و تیز بر روی دیوار نارنجی روشن از نور خورشید میاندازد. ترکیببندی به صورت مورب تقسیم شده است و سمت راست ساختمان در سایهای قهوهای تیره قرار دارد. در پایین قاب، یک پیادهرو بتنی صاف قابل مشاهده است که بر روی آن، سیلوئت پویای شخصی در حال قدم زدن از راست به چپ ثبت شده است.
در پسزمینه کمعمق، خطوط بیرونی کمرنگ و خارج از فوکوس ساختمان دیگری و شاخههای برهنه و اسکلتی درختان به آرامی قابل مشاهده هستند که به فضای آرام شهری کمک میکنند و حس عمق را به صحنه میبخشند. این عناصر با حداقل جزئیات ارائه شدهاند تا تمرکز بر معماری پیشزمینه حفظ شود.
صحنه توسط نور طبیعی و قوی خورشید که از سمت چپ بالا سرچشمه میگیرد، روشن شده و یک اثر سایه روشن چشمگیر ایجاد میکند. این منبع نور سخت، سایههای عمیق و مشخصی ایجاد میکند و تضاد شدیدی بین سطوح نارنجی گرم و روشن و نواحی سایه قهوهای تیره ایجاد میکند. نورپردازی، جزئیات ظریف در بافت دیوار و ذرات سنگ را برجسته میکند و بر کیفیت فتورئالیستی تأکید میکند. ارائه کلی، منعکسکننده یک سبک عکاسی فتورئالیستی با کیفیت بالا است که با زیباییشناسی فیلم نوآر سینمایی آمیخته شده است.

پرامپت:یک نقاشی رنگ روغن مینیمالیستی از بالا، که موضوع اصلی آن یک ضربه قلم موی قرمز تکی، مرکزی و مورب است. این ضربه قلم موی قرمز چشمگیر، که با تکنیک ایمپاستو اجرا شده، حس قوی از ضخامت فیزیکی و سهبعدی بودن را ایجاد میکند. این ضربه قلم موی قرمز چشمگیر، که از نزدیک گوشه بالا سمت چپ تا نزدیک گوشه پایین سمت راست امتداد یافته و یک خط مورب پویا تشکیل میدهد. ردهای به جا مانده از خراشیدن کاردک پالت و کشیدن قلم مو به وضوح روی سطح قابل مشاهده است، لایه رنگ در لبهها نازکتر و در مرکز ضخیم تر است و یک موج نامنظم ایجاد میکند. در بالای این رنگ قرمز سهبعدی، یک منظره مینیاتوری ظریف به طرز ماهرانهای ساخته شده است. در هسته آن، یک ساحل قرمز شبیهسازی شده، که با ظرافت با رنگ قرمز تیره نقطهگذاری شده است، تضاد غنی با قرمز پر جنب و جوش پایه زیرین ایجاد میکند. در مجاورت این “ساحل قرمز” دریاچه کوچکی قرار دارد که از یک لایه صاف و براق آبی و سفید تشکیل شده و به آن بافتی آرام میبخشد. در لبه دریاچه، یک توده کوچک از نیها با چند خط باریک و عمودی که با رنگهای زرد کمرنگ و قهوهای مشخص شدهاند، نشان داده شده است. یک حواصیل کوچک در کنار نیزارها ایستاده است، فرم آن با یک ایمپاستوی سفید خالص کوچک تعریف میشود، منقار نوکتیز آن تنها با کمی رنگ سیاه تصفیهشده برجسته میشود. پسزمینهی ترکیببندی عمدتاً خالی است، یک پایه کاغذ سفید با بافت ظریف. این رویکرد مینیمالیستی به طور چشمگیری بر ضربات قلممو قرمز مرکزی و منظرهی مینیاتوری بالا تأکید میکند. نور به آرامی از کنار به پایین میتابید و سایههای ظریف و تیزی را در لایههای ضخیم رنگ ایجاد میکرد و سهبُعدی بودن و کیفیت نقاشانهی نقاشی را بیشتر افزایش میداد. تصویر حاصل، سبک مینیمالیستی مدرنی را به نمایش میگذارد که شامل تکنیکهای ایمپاستوی ضخیم است.

پرامپت:تصویر کلی، که در یک شبکه دو در دو چهارتایی چیده شده است، رندر یک خرگوش را با استفاده از چهار ماده مختلف نشان میدهد که پس از تجسم محصول، طراحی شدهاند. هر شبکه شامل یک مدل خرگوش یکسان در حالت نشسته، گوشهای ایستاده و رو به جلو است. همه شبکهها دارای یک پسزمینه خاکستری تیره خنثی و یکنواخت هستند، طرحی مینیمالیستی که برای به حداکثر رساندن بافتهای منحصر به فرد هر ماده طراحی شده است. در شبکه بالا سمت چپ، مدل خرگوش از گچ سفید مات ساخته شده است. سطح آن صاف، یکنواخت و غیر بازتابنده است. در نواحی فرورفته، مانند پایه گوشها و در محل اتصال اندامها، سایههای انسداد محیطی نرم اعمال شده است. این سایهزنی ظریف بر هندسه خالص مدل تأکید میکند و تصور یک مدل اولیه برای مطالعه هنری را ایجاد میکند. در شبکه بالا سمت راست، مدل خرگوش از شیشه شفاف و بیعیب و نقص ساخته شده است. این مدل انکسار واقعگرایانه و مبتنی بر فیزیک را به نمایش میگذارد و پسزمینهای را که از طریق بدن شفاف آن دیده میشود، به طور نامحسوسی تغییر میدهد. هایلایتهای آینهای واضح در امتداد منحنیهای بدنش جریان دارند، در حالی که بازتابهای ضعیف اما متمایزی از محیط اطراف روی سطح آن قابل مشاهده است و به آن کیفیتی ظریف و شکننده میبخشد. در پنل پایین سمت چپ، مدل خرگوش با تیتانیوم برس خورده ارائه شده است. سطح فلز بازتاب ناهمسانگرد قابل توجهی را نشان میدهد و یک درخشش فلزی سرد و خاکستری ایجاد میکند. تضاد چشمگیر بین هایلایتهای تیز و روشن و سایههای عمیق، فرم ناهموار و سهبعدی آن را به طور دقیق تعریف میکند و یادآور زیباییشناسی طراحی صنعتی است. در پنل پایین سمت راست، مدل خرگوش با خز خاکستری نرم و متراکم پوشیده شده است. هر مو به وضوح قابل مشاهده است و بافتی گرم و لمسی ایجاد میکند. نور در نوک خز میدرخشد و یک اثر هاله نرم ایجاد میکند، در حالی که سایههای درون خز عمیق و نرم به نظر میرسند و رندر بسیار واقعگرایانه خز را به نمایش میگذارند. نورپردازی نرم و یکنواخت استودیویی، کل چهار پنل را از جهات مختلف روشن میکند و تضمین میکند که هر جزئیات و ویژگی مواد بدون سایههای تند یا هایلایتهای برجسته به وضوح نمایش داده میشود. این تصویر که به سبک رندر سهبعدی بسیار واقعگرایانهای ارائه شده است، جوهره تجسم محصول را به طور کامل مجسم میکند.

پرامپت:این تصویر که از یک شبکه دو ردیفی و دو ستونی تشکیل شده است، شامل چهار صحنه جداگانه است که هر کدام یک پسر جوان (شیائو مینگ) را در حال انجام یک فعالیت روزانه متفاوت با سبک هنری متفاوت نشان میدهد. صحنه اول، در گوشه بالا سمت چپ، به سبک عکاسی فوق واقعگرایانه ارائه شده است. سوژه، پسری از آسیای شرقی، تقریباً هشت ساله، با لباس فرم مدرسه ابتدایی مرتب با یک پیراهن آستین کوتاه سفید، شلوارک آبی و یک پارچه قرمز که دور گردنش بسته شده است. او یک کوله پشتی آبی حمل میکند و در حال رفتن به مدرسه است. او در پیشزمینه، کمی به سمت راست، لبخند میزند و با سرعت راه میرود. صحنه در اوایل صبح گرفته شده است، با نور ملایم خورشید که از بالا سمت چپ فیلتر میشود و سایههای نرم و واضحی بر پیادهرو میاندازد. در پسزمینه، یک خیابان درختکاری شده و دروازههای آهنی فرفورژه مدرسه که به طور مبهمی قابل مشاهده هستند، یک فضای آرام صبحگاهی ایجاد میکنند. تصویر به طرز چشمگیری جزئیات دارد، درخشش موهای پسر، چین و چروک لباسهایش و بوم کوله پشتیاش به وضوح قابل مشاهده است و کیفیت یک عکس حرفهای را مجسم میکند. صحنه دوم، در گوشه بالا سمت راست، به سبک انیمههای سلشید (cel shade) ژاپنی ارائه شده است. در این نقاشی، پسر جوانی پشت میز ناهارخوری چوبی خانوادهاش نشسته و ناهار میخورد. شخصیت او شبیه انیمه است، با چشمانی بزرگ و درخشان و چهرهای تمیز. او یک تیشرت زرد ساده پوشیده و با چوب غذاخوری از کاسهای برنج برمیدارد. یک کاسه سوپ و دو بشقاب غذای خانگی روی میز قرار داده شده است. پسزمینه، فضای داخلی گرمی است، با پنجرهای روشن که آفتاب ظهر را فیلتر میکند و آسمانی آبی و ابرهای سفید در آن سوی آن. نقاشی پر جنب و جوش و اشباع شده است، با خطوط کلی شخصیتهای برجسته و مشخص و سایههای مسطح و بلوکی، به سبک انیمیشن کلاسیک سلشید. صحنه سوم، در گوشه پایین سمت چپ، به سبک طراحی مدادی ظریف ارائه شده است. این تصویر، پسر جوانی را نشان میدهد که بعد از ظهر در زمین بازی فوتبال بازی میکند. کل تصویر از سایههای مختلف گرافیت تشکیل شده است، بدون رنگهای دیگر. پسر بچه که پیراهن ورزشی آستین کوتاه و شلوارک پوشیده، به جلو خم شده و پای راستش آماده شوت کردن توپ فوتبال است و حرکاتش پر از حرکت است. پسزمینه یک زمین بازی خالی و یک دروازه در دوردست است که با خطوط ساده مشخص شده است. هنرمند از تکنیکهای هاشور متقاطع و لکهگذاری برای انتقال نور، سایه و حجم استفاده میکند. ضربات مداد به طور کامل سایههای روی توپ، خطوط عضلانی چهرهها و بافت خشن زمین را به تصویر میکشد. این نقاشی مدادی، روابط نور و سایه و کیفیت زیباییشناسی خطوط را برجسته میکند. صحنه چهارم، در گوشه پایین سمت راست، به سبک پست امپرسیونیست ونسان ون گوگ تفسیر شده است. این نقاشی، پسر جوانی را نشان میدهد که شب هنگام به تنهایی در کنار رودخانه ماهیگیری میکند. او روی صخرهای نشسته و یک چوب ماهیگیری ساده در دست دارد و چهرهاش در مقابل آبی عمیق آسمان شب کوچک به نظر میرسد. نقاط کانونی بصری نقاشی، آسمان و آب هستند. آسمان پر از سحابیهای چرخان و حلقهای است و ستارگان و ماه به صورت تودههای عظیم و درخشان به تصویر کشیده شدهاند. در این اثر از ایمپاستو (رنگ روغن غلیظ) با ضربات قلمموهای جسورانه و پرانرژی استفاده شده است. آبی پررنگ، زرد روشن و سفید در سراسر بوم در هم تنیدهاند و تأثیر بصری قدرتمندی ایجاد کردهاند. آب، نور و سایههای کج و معوج آسمان را منعکس میکند و صحنه را با احساسات شدید و زیبایی متلاطم که مشخصه آثار ون گوگ است، آغشته میکند. این نقاشی ادای احترامی عمیق به سبک ون گوگ است.

یک نمودار شبکهای نه مربعی نحوهی طراحی یک طوطی را با استفاده از تکنیکهای طراحی، از منظر افقی نشان میدهد. ترکیب کلی، با نه قاب مربعی با اندازهی یکسان که به طور مساوی در سه ردیف و سه ستون روی یک پسزمینهی خاکستری روشن قرار گرفتهاند، مرتب است و به وضوح کل فرآیند را از شکل اولیه تا محصول نهایی نشان میدهد. ردیف اول، از چپ به راست، مراحل اولیهی طراحی را نشان میدهد. در قاب اول، در گوشهی بالا سمت چپ، خطوط سادهی مداد، شکل هندسی اولیهی طوطی را ترسیم میکنند: یک دایره برای سر و یک بیضی کمی بزرگتر برای بدن. یک عدد کوچک “1” در گوشهی بالا سمت راست ظاهر میشود. در قاب دوم، طرح مثلثی منقار و یک خط منحنی بلند، پایهی دم را تشکیل میدهند و یک خط صافتر در محل اتصال سر و بدن اضافه میکنند. عدد “2” در گوشهی بالا سمت راست مشخص شده است. در قاب سوم در سمت راست، طرح کلی طوطی با تاج روی سر و طرح دایرهای واضح چشم، بیشتر اصلاح شده است. عدد “3” در گوشهی بالا سمت راست مشخص شده است. ردیف دوم بر افزودن ساختار و جزئیات تمرکز دارد و مراحل میانی نقاشی را به تصویر میکشد. در قاب چهارم در سمت چپ، شکل اولیه بالها به بدن طوطی اضافه شده است. یک شاخه افقی در زیر بدن به عنوان یک نشیمنگاه کشیده شده است، که در ابتدا چنگالهای طوطی روی شاخه قرار گرفتهاند. عدد “4” در گوشه بالا سمت راست مشخص شده است. در قاب پنجم در مرکز، پرهای روی بالها و دم ، با استفاده از خطوط کوتاه و تیز برای ایجاد حس عمق و به وضوح نشان دادن گرفتن چنگالها روی شاخه شروع به اصلاح میکنند. عدد “5” در گوشه بالا سمت راست مشخص شده است. در قاب ششم در سمت راست، سایهزنی اولیه شروع میشود، با استفاده از هاشور متقاطع برای ایجاد حجم در شکم، زیر بالها و گردن. عدد “6” در گوشه بالا سمت راست مشخص شده است. ردیف سوم آخرین جزئیات و پرداخت را نشان میدهد. در قاب هفتم در سمت چپ پایین، طرح متراکمتر میشود، سایهها غنیتر میشوند، بافت پرها با دقت جزئیات میشود و هایلایتها به چشمها اضافه میشوند و آنها را درخشان میکنند. عدد “7” در گوشه بالا سمت راست مشخص شده است. در فریم هشتم، تمرکز به سمت نشیمنگاه تغییر میکند و جزئیاتی به بافت و گرههای شاخه اضافه میکند. روابط کلی نور و سایه روی طوطی تنظیم شده است تا سه بعدی بودن آن را افزایش دهد؛ عدد “8” در گوشه بالا سمت راست مشخص شده است. فریم نهم، در گوشه پایین سمت راست، نقاشی نهایی است. هر خط با کنتراست قوی نور و سایه اصلاح شده است و به وضوح بافت پرهای طوطی و زبری نشیمنگاه چوبی را به تصویر میکشد و یک طرح کامل و دقیق ایجاد میکند؛ عدد “9” در گوشه بالا سمت راست مشخص شده است. نورپردازی در کل نقاشی یکنواخت و روشن است، بدون هیچ جهت خاصی از منبع نور، که وضوح بصری را در هر مرحله تضمین میکند. سبک کلی آموزش تصویرسازی دیجیتال واضح و سازمانیافته است.

یک پوستر طراحی گرافیکی مدرن، تمام قاب را اشغال کرده و ترکیبی ساده و یک قطعه مرکزی برجسته را به نمایش میگذارد. این پوستر، پنگوئن Tencent QQ، شخصیت مرکزی را به تصویر میکشد. بدن پنگوئن که به سبک کارتونی سهبعدی و براق ارائه شده است، عمدتاً سیاه پررنگ و زیر شکم آن سفید خالص است. چشمان بزرگ و گرد آن با کنجکاوی به جلو خیره شدهاند. منقار کوچک و سهبعدی زرد رنگ و پاهایش که آن هم زرد پررنگ است، محکم ایستادهاند. یک شال قرمز خاص، با بافت پارچهای ظریف و انتهای طبیعی آویزان، به زیبایی دور گردنش بسته شده است. سایه تمیز و براق پنگوئن، با لبههای صاف، کیفیت یک تصویرسازی دیجیتالی پیچیده را به نمایش میگذارد. پسزمینه پوستر دارای شیب ملایمی از آبی روشن به سفید است که حس فضای باز و روشن را ایجاد میکند. در پشت پنگوئن، لکههای نوری دایرهای کمرنگ و تار و پرتوهای نور نرم و انتزاعی، عمق ظریف و حس فناوری را به این طراحی گرافیکی مینیمالیستی میافزایند. متن در پایین تصویر در مرکز قرار گرفته است. نیمه بالایی شامل یک خط متن کمی بزرگتر با فونت سیاه پررنگ است که روی آن”Hunyuan Image3.0 ” نوشته شده است .بلافاصله زیر این خط، یک خط متن کمی کوچکتر با فونت خاکستری تیره پررنگ وجود دارد که روی آن “Native Multimodal Large Model” نوشته شده است. هر دو خط متن واضح و خوانا هستند و با سبک کلی طراحی گرافیک مدرن سازگارند. نورپردازی کلی روشن و یکنواخت است و هیچ سایه قابل توجهی وجود ندارد که پنگوئن و متن را برجسته میکند و الزامات بصری یک پوستر طراحی مدرن را برآورده میکند. این تصویر، سبک پوستر طراحی گرافیک مدرن و سادهای را مجسم میکند.
📊 ارزیابی
🤖 SSAE (ارزیابی ماشینی)
SSAE یا Structured Semantic Alignment Evaluation (ارزیابی همترازی معنایی ساختاریافته) یک معیار ارزیابی هوشمند برای همترازی تصویر-متن مبتنی بر مدلهای زبان بزرگ چندوجهی پیشرفته (MLLM) است. ما ۳۵۰۰ نکته کلیدی را در ۱۲ دسته استخراج کردیم، سپس از مدلهای زبان بزرگ چندوجهی برای ارزیابی خودکار و امتیازدهی با مقایسه تصاویر تولید شده با این نکات کلیدی بر اساس محتوای بصری تصاویر استفاده کردیم. میانگین دقت تصویر، میانگین امتیاز تصویر را در تمام نقاط کلیدی نشان میدهد، در حالی که دقت کلی مستقیماً میانگین امتیاز را در تمام نقاط کلیدی محاسبه میکند.


👥 GSB (ارزیابی انسانی)
این مدل با روش ارزیابی good/same/bad یا GSB (خوب/مشابه/بد) را که معمولاً برای ارزیابی عملکرد نسبی بین دو مدل از دیدگاه کلی درک تصویر استفاده میشود، مورد بررسی قرار گرفته است . در مجموع، از ۱۰۰۰ نمونه متن استفاده گردیده است و تعداد مساوی از نمونههای تصویر را برای همه مدلهای مقایسه شده در یک اجرا تولید شدند. برای مقایسه منصفانه، فقط یک بار برای هر نمونه استنباط انجام شده و از هرگونه گزینش نتایج اجتناب گردیده است. هنگام مقایسه با روشهای پایه، تنظیمات پیشفرض برای همه مدلهای انتخاب شده انتخاب گردیده و ارزیابی توسط بیش از ۱۰۰ ارزیاب حرفهای انجام شده است.