HunyuanImage3 مدل چندوجهی قدرتمند برای تولید تصویر

HunyuanImage3 یک مدل چندوجهی بومی پیشگام است که درک و تولید چندوجهی را در یک چارچوب خودهمبسته (اتو رگرسیو) یکپارچه می‌کند که این ماژول تبدیل متن به تصویر را به عملکردی قابل مقایسه یا فراتر از مدل‌های متن‌باز پیشرو تبدیل می‌کند.

✨ ویژگی‌های کلیدی HunyuanImage3

🧠 معماری چندوجهی یکپارچه: HunyuanImage-3.0با فراتر رفتن از معماری‌های رایج مبتنی بر diffusion transformer(DiT)، از یک چارچوب خودهمبستگی یکپارچه استفاده می‌کند. این طراحی، مدل‌سازی مستقیم‌تر و یکپارچه‌تری از حالت‌های متن و تصویر را امکان‌پذیر می‌کند و منجر به تولید تصویر به طرز شگفت‌آوری مؤثر و غنی از نظر بافت می‌شود.
🏆 بزرگترین مدل تولید تصویر MoE: این بزرگترین مدل تولید تصویر متن‌باز ترکیب متخصصین یا Mixture of Experts (MoE) تا به امروز است. این مدل دارای ۶۴ متخصص و در مجموع ۸۰ میلیارد پارامتر است که ۱۳ میلیارد پارامتر به ازای هر توکن فعال می‌شود و ظرفیت و عملکرد آن را به طور قابل توجهی افزایش می‌دهد.
🎨 عملکرد برتر تولید تصویر: از طریق گردآوری دقیق مجموعه داده‌ها و یادگیری تقویتی پیشرفته پس از آموزش، به تعادل بهینه‌ای بین دقت معنایی و برتری بصری دست یافته ‌است. این مدل در عین ارائه تصاویر واقع‌گرایانه با کیفیت زیبایی‌شناختی خیره‌کننده و جزئیات دقیق، پایبندی سریع و استثنایی را نشان می‌دهد.

💭 استدلال هوشمند مبتنی بر دانش جهانی: معماری چندوجهی یکپارچه، HunyuanImage-3.0 را به قابلیت‌های استدلال قدرتمندی مجهز می‌کند. این نرم‌افزار از دانش گسترده خود برای تفسیر هوشمندانه قصد کاربر بهره می‌برد و به طور خودکار پیام‌های پراکنده را با جزئیات متناسب با متن، شرح می‌دهد تا خروجی‌های بصری برتر و کامل‌تری تولید کند.

🛠️ وابستگی‌ها و نصب

💻 الزامات سیستم

🖥️ سیستم عامل: لینوکس
🎮 پردازنده گرافیکی: پردازنده گرافیکی انویدیا با پشتیبانی از CUDA
💾 فضای دیسک: ۱۷۰ گیگابایت برای وزن‌های مدل
🧠 حافظه پردازنده گرافیکی: ≥۳×۸۰ گیگابایت (۴×۸۰ گیگابایت برای عملکرد بهتر توصیه می‌شود)

📦 تنظیمات محیط اجرای برنامه

🐍 پایتون: ۳.۱۲+ (توصیه شده و آزمایش شده)
🔥 پای‌تورچ: ۲.۷.۱
⚡ کودا: ۱۲.۸

📥 نصب وابستگی‌ها

۱. ابتدا پای‌تورچ (نسخه CUDA12.8) را نصب کنید

pip install torch==2.7.1 torchvision==0.22.1 torchaudio==2.7.1 --index-url https://download.pytorch.org/whl/cu128

۲. سپس نصب کنید tencentcloud-sdk

pip install -i https://mirrors.tencent.com/pypi/simple/ --upgrade tencentcloud-sdk-python

۳. سپس سایر وابستگی‌ها را نصب کنید

pip install -r requirements.txt

بهینه‌سازی‌های عملکرد

برای استنتاج تا ۳ برابر سریع‌تر، این بهینه‌سازی‌ها را نصب کنید:

FlashAttention برای محاسبه سریع‌تر مکانیسم attention

pip install flash-attn==2.8.3 --no-build-isolation

FlashInfer برای استنتاج بهینه. نسخه ۰.۳.۱ آزمایش شده است.

pip install flashinfer-python

💡نکات نصب: بسیار مهم است که نسخه CUDA مورد استفاده توسط PyTorch با نسخه CUDA سیستم مطابقت داشته باشد. FlashInfer هنگام کامپایل هسته‌ها در زمان اجرا به این سازگاری متکی است. Pytorch 2.7.1+cu12.8آزمایش شده است. نسخه GCC حداقل ۹ برای کامپایل FlashAttention و FlashInfer توصیه می‌شود.

⚡ نکات مربوط به عملکرد: این بهینه‌سازی‌ها می‌توانند سرعت استنتاج شما را به میزان قابل توجهی افزایش دهند!

💡نکته: وقتی FlashInfer فعال باشد، ممکن است اولین استنتاج به دلیل کامپایل هسته کندتر (حدود ۱۰ دقیقه) باشد. استنتاج‌های بعدی روی همان دستگاه بسیار سریع‌تر خواهند بود.

🚀 نحوه استفاده از HunyuanImage3

🔥 شروع سریع با Transformers

۱ – دانلود وزن‌های مدل

دانلود از HuggingFace و تغییر نام دایرکتوری.

توجه داشته باشید که نام دایرکتوری نباید شامل نقطه باشد، که ممکن است هنگام بارگیری با استفاده از Transformers مشکلاتی ایجاد کند.

hf download tencent/HunyuanImage-3.0 --local-dir ./HunyuanImage-3

۲ – اجرا با transformers

from transformers import AutoModelForCausalLM

model_id = "./HunyuanImage-3"
kwargs = dict(
    attn_implementation="sdpa",
    trust_remote_code=True,
    torch_dtype="auto",
    device_map="auto",
    moe_impl="eager",
)

model = AutoModelForCausalLM.from_pretrained(model_id, **kwargs)
model.load_tokenizer(model_id)

prompt = "A brown and white dog is running on the grass"
image = model.generate_image(prompt=prompt, stream=True)
image.save("image.png")

🏠 نصب و استفاده محلی

۱ – کپی کردن مخزن HunyuanImage3

git clone https://github.com/Tencent-Hunyuan/HunyuanImage-3.0.git
cd HunyuanImage-3.0/

۲ – دانلود وزن‌های مدل HunyuanImage3

hf download tencent/HunyuanImage-3.0 --local-dir ./HunyuanImage-3

۳ – اجرای نسخه آزمایشی HunyuanImage3

وزن های مدل پیش‌فرض به طور خودکار دستورات ورودی را بازنویسی یا بهبود نمی‌دهد، برای نتایج بهینه در حال حاضر، به متخصصین و توسعه دهندگان توصیه می‌کنیم از deepseek برای بازنویسی دستورات استفاده کنند. برای درخواست کلید API به Tencent Cloud مراجعه کنید.

# set env
export DEEPSEEK_KEY_ID="your_deepseek_key_id"
export DEEPSEEK_KEY_SECRET="your_deepseek_key_secret"

python3 run_image_gen.py --model-id ./HunyuanImage-3 --verbose 1 --sys-deepseek-prompt "universal" --prompt "A brown and white dog is running on the grass"

۴ – آرگومان‌های خط فرمان

آرگومان	توضیح	حالت پیش‌فرض
`--prompt`	ورودی اعلان	(الزامی)
`--model-id`	مسیر مدل	(الزامی)
`--attn-impl`	پیاده‌سازی مکانیسم attention (flash-attention-2 یا sdpa)	sdpa
`--moe-impl`	پیاده‌سازی MoE (eager یا flashinfer)	eager
`--seed`	بذر تصادفی برای تولید تصویر	None
`--diff-infer-steps`	مراحل استنتاج انتشار	50
`--image-size`	وضوح تصویر. می‌تواند خودکار باشد مانند 1280×768 یا 16:9	auto
`--save`	مسیر ذخیره تصویر	image.png
`--verbose`	سطح Verbose 0 : بدون گزارش؛ 1: گزارش اطلاعات استنتاج.	0
`--rewrite`	آیا بازنویسی فعال شود	۱
`--sys-deepseek-prompt`	انتخاب sys-prompt (universal یا text_rendering)	universal

🎨 نسخه آزمایشی تعاملی Gradio

راه‌اندازی یک رابط وب تعاملی برای تولید آسان متن به تصویر.

۱ – نصب gradio

pip install gradio>=4.21.0

۲ – پیکربندی محیط اجرا

مسیر مدل خود را تنظیم کنید

export MODEL_ID="path/to/your/model"

اختیاری: پیکربندی میزان استفاده از GPU (پیش‌فرض: 0،1،2،3)

export GPUS="0,1,2,3"

اختیاری: پیکربندی میزبان و پورت (پیش‌فرض: 0.0.0.0:443)

export HOST="0.0.0.0"

export PORT="443"

۳ – راه اندازی رابط وب

راه اندازی اولیه:

sh run_app.sh

با بهینه‌سازی عملکرد:

sh run_app.sh --moe-impl flashinfer --attn-impl flash_attention_2

۴ – دسترسی به رابط کاربری

🌐 رابط وب: مرورگر خود را باز کنید و به آدرس http://localhost:443 (یا پورت پیکربندی‌شده‌ی خود) بروید.

🧱 کارت‌های مدل

مدل	تعداد پارامترهای مدل	دانلود	حافظه گرافیکی توصیه شده	پشتیبانی
HunyuanImage-3.0	80 میلیارد در مجموع (13 میلیارد فعال)	https://huggingface.co/tencent/HunyuanImage-3.0	≥3 × 80 گیگابایت	✅ تبدیل متن به تصویر
HunyuanImage-3.0-instruct	80 میلیارد در مجموع (13 میلیارد فعال)	https://huggingface.co/tencent/HunyuanImage-3.0	≥ 3 × 80 گیگابایت	✅ تبدیل متن به تصویر ✅ خود-بازنویسی سریع ✅CoT Think

نکات:

برای استنتاج سریع‌تر، افزونه‌های افزایش عملکرد (FlashAttention، FlashInfer) را نصب کنید.
استنتاج چند پردازنده گرافیکی برای مدل پایه توصیه می‌شود.

📝 راهنمای پرامپت

نوشتن دستی پرامپت

وزن های پیشفرض مدل یا Pretrain Checkpoint به طور خودکار پرامپت‌های(Prompt) ورودی را بازنویسی یا بهبود نمی‌دهد، Instruct Checkpoint می‌تواند پرامپت‌های ورودی را با تفکر بازنویسی یا بهبود بخشد. برای نتایج بهینه در حال حاضر، توصیه می‌کنیم افراد از راهنمای رسمی در مورد نحوه نوشتن پرامپت‌های موثر استفاده کنند.

مرجع:

https://docs.qq.com/doc/DUVVadmhCdG9qRXBU

سیستم پرامپت برای بازنویسی خودکار پرامپت

دو سیستم پرامپت را در پوشه PE گیت‌هاب قرار گرفته است که از DeepSeek برای بهبود خودکار ورودی‌های کاربر استفاده می‌کنند:

system_prompt_universal: این سیستم پرامپت، سبک عکاسی و هنری پرامپت را به یک پرامپت با جزئیات دقیق تبدیل می‌کند.

system_prompt_text_rendering: این سیستم پرامپت، رابط کاربری یا پوستر یا متن پارمپت را به یک مدل دقیق تبدیل می‌کند.

توجه داشته باشید که این سیستم پرامپت‌ها به زبان چینی هستند زیرا Deepseek با سیستم پرامپت چینی بهتر کار می‌کند. اگر می‌خواهید از آن برای مدل انگلیسی‌زبان استفاده کنید، می‌توانید آن را به انگلیسی ترجمه کنید یا به نظرات موجود در فایل PE به عنوان راهنما مراجعه کنید.

نکات پیشرفته

اولویت محتوا: ابتدا بر توصیف موضوع و عمل اصلی تمرکز کنید و سپس جزئیات مربوط به محیط و سبک را شرح دهید. یک چارچوب توصیف کلی‌تر عبارت است از: موضوع و صحنه اصلی + کیفیت و سبک تصویر + ترکیب‌بندی و پرسپکتیو + نورپردازی و جو + پارامترهای فنی. کلمات کلیدی را می‌توان قبل و بعد از این ساختار اضافه کرد.
وضوح تصویر: این مدل نه تنها از چندین وضوح پشتیبانی می‌کند، بلکه گزینه‌های وضوح خودکار و مشخص را نیز ارائه می‌دهد. در حالت خودکار، مدل به طور خودکار وضوح تصویر را بر اساس ورودی پیش‌بینی می‌کند. در حالت مشخص (مانند DiT(Diffusion Transformers) سنتی)، مدل وضوح تصویری را ارائه می‌دهد که کاملاً با وضوح انتخابی کاربر همسو است.

موارد بیشتر HunyuanImage3

HunyuanImage3 می‌تواند دستورالعمل‌های پیچیده‌ای را برای تولید تصاویر خلاقانه و با کیفیت بالا دنبال کند. در زیر چند نمونه آورده شده است.

این مدل می‌تواند به طور مؤثر ورودی‌های متنی بسیار طولانی را پردازش کند و به کاربران این امکان را می‌دهد که جزئیات ظریف‌تر تصاویر تولید شده را به دقت کنترل کنند. دستورات گسترده امکان ثبت دقیق عناصر پیچیده را فراهم می‌کنند و آن را برای پروژه‌های پیچیده‌ای که نیاز به دقت و خلاقیت دارند، ایده‌آل می‌کنند.

نمونه ۱

پرامپت: یک نمای متوسط سینمایی، زنی آسیایی را که روی صندلی در اتاقی کم‌نور نشسته است، به تصویر می‌کشد و فضایی صمیمی و تئاتری ایجاد می‌کند. ترکیب‌بندی بر روی سوژه متمرکز شده و با رنگ‌های غنی و بافت‌های پیچیده، احساسی نوستالژیک و غم‌انگیز را تداعی می‌کند

سوژه اصلی، زنی جوان آسیایی با چهره‌ای متفکر و رسا است که نگاهش کمی از دوربین دور است. او در حالتی آرام اما زیبا روی یک صندلی راحتی قدیمی و مزین نشسته است. روکش صندلی از مخمل قرمز تیره است و پارچه آن بافت‌های پیچیده و ظریفی دارد و نشانه‌های کمی از فرسودگی در آن دیده می‌شود. او لباسی ساده و شیک به رنگ فیروزه‌ای تیره پوشیده است که نور را به گونه‌ای جذب می‌کند که بافت ریزبافت آن را نمایان می‌کند. پوست او نرم و مات است و نور به طرز ظریفی خطوط صورت و بازوهای او را ترسیم می‌کند.

اتاق اطراف با دکوراسیون قدیمی خود مشخص می‌شود که به حس و حال تاریخی و خاطره‌انگیز آن کمک می‌کند. در پس‌زمینه‌ی نزدیک، که به دلیل عمق میدان کم و دیافراگم f2.8 تا حدی تار شده است، دیوار با کاغذ دیواری با طرح ظریف و داماسک پوشانده شده است. پالت رنگ کلی، ترکیبی متعادل و دقیق از رنگ‌های فیروزه‌ای تیره و قرمز غنی است که محیطی بصری گیرا و منسجم ایجاد می‌کند.

کل صحنه، از الیاف روکش مبلمان گرفته تا طرح‌های ظریف روی دیوار، پر از جزئیات است. نورپردازی بسیار دراماتیک و هنری است که با کنتراست بالا و بازی سایه‌های برجسته تعریف می‌شود. یک منبع نور کلیدی، که خارج از دوربین قرار گرفته است، الگوهای نورپردازی گوبو را بر روی صحنه می‌تاباند و اشکال پیچیده‌ای از نور و سایه را در سراسر زن و دیوار پشتی ایجاد می‌کند. این سایه‌های دراماتیک، حس عمق قوی و کیفیتی نمایشی ایجاد می‌کنند. در حالی که برخی از سایه‌ها عمیق و مشخص هستند، برخی دیگر نرم باقی می‌مانند و به آرامی در اطراف سوژه قرار می‌گیرند و از از دست دادن جزئیات در نواحی تاریک‌تر جلوگیری می‌کنند. فوکوس نرم روی پس‌زمینه، حس صمیمیت را افزایش می‌دهد و تمام توجه را به سوژه‌ی بیانگر جلب می‌کند. تصویر کلی، یک سبک عکاسی سینمایی و واقع‌گرایانه را ارائه می‌دهد.

نمونه۲

پرامپت:یک نمای متوسط سینمایی و واقع‌گرایانه، گوشه‌ای از یک خیابان شهری با کنتراست بالا را به تصویر می‌کشد که با تقاطع شدید نور و سایه تعریف می‌شود. سوژه اصلی، گوشه بیرونی یک ساختمان است که به سبکی واقع‌گرایانه و با اشباع کم ارائه شده است.

دیوار ساختمان که بخش عمده‌ای از قاب را اشغال می‌کند، به رنگ نارنجی گرم با بافت گچی خشن و با جزئیات دقیق رنگ‌آمیزی شده است. نوارهای سفید افقی در سراسر سطح آن امتداد دارند. پایه ساختمان از بلوک‌های سنگی بزرگ و خشن ساخته شده است که ذرات و بافت قابل مشاهده‌ای را نشان می‌دهد. در سمت چپ و روشن ساختمان، یک پنجره با کرکره‌های بسته و تیره رنگ وجود دارد. در مجاورت پنجره، یک چراغ آویز سیاه ساده از یک طناب نازک و محکم آویزان است و سایه‌ای متمایز و تیز بر روی دیوار نارنجی روشن از نور خورشید می‌اندازد. ترکیب‌بندی به صورت مورب تقسیم شده است و سمت راست ساختمان در سایه‌ای قهوه‌ای تیره قرار دارد. در پایین قاب، یک پیاده‌رو بتنی صاف قابل مشاهده است که بر روی آن، سیلوئت پویای شخصی در حال قدم زدن از راست به چپ ثبت شده است.

در پس‌زمینه کم‌عمق، خطوط بیرونی کم‌رنگ و خارج از فوکوس ساختمان دیگری و شاخه‌های برهنه و اسکلتی درختان به آرامی قابل مشاهده هستند که به فضای آرام شهری کمک می‌کنند و حس عمق را به صحنه می‌بخشند. این عناصر با حداقل جزئیات ارائه شده‌اند تا تمرکز بر معماری پیش‌زمینه حفظ شود.

صحنه توسط نور طبیعی و قوی خورشید که از سمت چپ بالا سرچشمه می‌گیرد، روشن شده و یک اثر سایه روشن چشمگیر ایجاد می‌کند. این منبع نور سخت، سایه‌های عمیق و مشخصی ایجاد می‌کند و تضاد شدیدی بین سطوح نارنجی گرم و روشن و نواحی سایه قهوه‌ای تیره ایجاد می‌کند. نورپردازی، جزئیات ظریف در بافت دیوار و ذرات سنگ را برجسته می‌کند و بر کیفیت فتورئالیستی تأکید می‌کند. ارائه کلی، منعکس‌کننده یک سبک عکاسی فتورئالیستی با کیفیت بالا است که با زیبایی‌شناسی فیلم نوآر سینمایی آمیخته شده است.

نمونه۳

پرامپت:یک نقاشی رنگ روغن مینیمالیستی از بالا، که موضوع اصلی آن یک ضربه قلم موی قرمز تکی، مرکزی و مورب است. این ضربه قلم موی قرمز چشمگیر، که با تکنیک ایمپاستو اجرا شده، حس قوی از ضخامت فیزیکی و سه‌بعدی بودن را ایجاد می‌کند. این ضربه قلم موی قرمز چشمگیر، که از نزدیک گوشه بالا سمت چپ تا نزدیک گوشه پایین سمت راست امتداد یافته و یک خط مورب پویا تشکیل می‌دهد. ردهای به جا مانده از خراشیدن کاردک پالت و کشیدن قلم مو به وضوح روی سطح قابل مشاهده است، لایه رنگ در لبه‌ها نازک‌تر و در مرکز ضخیم تر است و یک موج نامنظم ایجاد می‌کند. روی این رنگ قرمز سه‌بعدی، یک منظره مینیاتوری ظریف به طرز ماهرانه‌ای ساخته شده است. وسط، ساحل قرمز شبیه‌سازی شده، که با ظرافت با رنگ قرمز تیره نقطه‌گذاری شده است، تضاد غنی با قرمز پر جنب و جوش پایه زیرین ایجاد می‌کند. در مجاورت این “ساحل قرمز” دریاچه کوچکی قرار دارد که از یک لایه صاف و براق آبی و سفید تشکیل شده و به آن بافتی آرام می‌بخشد. در لبه دریاچه، یک توده کوچک از نی‌ها با چند خط باریک و عمودی که با رنگ‌های زرد کم‌رنگ و قهوه‌ای مشخص شده‌اند، نشان داده شده است. یک حواصیل کوچک در کنار نیزارها ایستاده است، فرم آن با یک ایمپاستوی سفید خالص کوچک تعریف می‌شود، منقار نوک‌تیز آن تنها با کمی رنگ سیاه تصفیه‌شده برجسته می‌شود. پس‌زمینه‌ی ترکیب‌بندی عمدتاً خالی است، یک پایه کاغذ سفید با بافت ظریف. این رویکرد مینیمالیستی به طور چشمگیری بر ضربات قلم‌مو قرمز مرکزی و منظره‌ی مینیاتوری بالا تأکید می‌کند. نور به آرامی از کنار به پایین می‌تابید و سایه‌های ظریف و تیزی را در لایه‌های ضخیم رنگ ایجاد می‌کرد و سه‌بُعدی بودن و کیفیت نقاشانه‌ی نقاشی را بیشتر افزایش می‌داد. تصویر حاصل، سبک مینیمالیستی مدرنی را به نمایش می‌گذارد که شامل تکنیک‌های ایمپاستوی ضخیم است.

نمونه۴

پرامپت:تصویر کلی، که در یک شبکه دو در دو چهارتایی چیده شده است، رندر یک خرگوش را با استفاده از چهار ماده مختلف نشان می‌دهد که پس از تجسم محصول، طراحی شده‌اند. هر شبکه شامل یک مدل خرگوش یکسان در حالت نشسته، گوش‌های ایستاده و رو به جلو است. همه شبکه‌ها دارای یک پس‌زمینه خاکستری تیره خنثی و یکنواخت هستند، طرحی مینیمالیستی که برای به حداکثر رساندن بافت‌های منحصر به فرد هر ماده طراحی شده است. در شبکه بالا سمت چپ، مدل خرگوش از گچ سفید مات ساخته شده است. سطح آن صاف، یکنواخت و غیر بازتابنده است. در نواحی فرورفته، مانند پایه گوش‌ها و در محل اتصال اندام‌ها، سایه‌های انسداد محیطی نرم اعمال شده است. این سایه‌زنی ظریف بر هندسه خالص مدل تأکید می‌کند و تصور یک مدل اولیه برای مطالعه هنری را ایجاد می‌کند. در شبکه بالا سمت راست، مدل خرگوش از شیشه شفاف و بی‌عیب و نقص ساخته شده است. این مدل انکسار واقع‌گرایانه و مبتنی بر فیزیک را به نمایش می‌گذارد و پس‌زمینه‌ای را که از طریق بدن شفاف آن دیده می‌شود، به طور نامحسوسی تغییر می‌دهد. هایلایت‌های آینه‌ای واضح در امتداد منحنی‌های بدنش جریان دارند، در حالی که بازتاب‌های ضعیف اما متمایزی از محیط اطراف روی سطح آن قابل مشاهده است و به آن کیفیتی ظریف و شکننده می‌بخشد. در پنل پایین سمت چپ، مدل خرگوش با تیتانیوم برس خورده ارائه شده است. سطح فلز بازتاب ناهمسانگرد قابل توجهی را نشان می‌دهد و یک درخشش فلزی سرد و خاکستری ایجاد می‌کند. تضاد چشمگیر بین هایلایت‌های تیز و روشن و سایه‌های عمیق، فرم ناهموار و سه‌بعدی آن را به طور دقیق تعریف می‌کند و یادآور زیبایی‌شناسی طراحی صنعتی است. در پنل پایین سمت راست، مدل خرگوش با خز خاکستری نرم و متراکم پوشیده شده است. هر مو به وضوح قابل مشاهده است و بافتی گرم و لمسی ایجاد می‌کند. نور در نوک خز می‌درخشد و یک اثر هاله نرم ایجاد می‌کند، در حالی که سایه‌های درون خز عمیق و نرم به نظر می‌رسند و رندر بسیار واقع‌گرایانه خز را به نمایش می‌گذارند. نورپردازی نرم و یکنواخت استودیویی، کل چهار پنل را از جهات مختلف روشن می‌کند و تضمین می‌کند که هر جزئیات و ویژگی مواد بدون سایه‌های تند یا هایلایت‌های برجسته به وضوح نمایش داده می‌شود. این تصویر که به سبک رندر سه‌بعدی بسیار واقع‌گرایانه‌ای ارائه شده است، جوهره تجسم محصول را به طور کامل مجسم می‌کند.

نمونه۵

پرامپت:این تصویر که از یک شبکه دو ردیفی و دو ستونی تشکیل شده است، شامل چهار صحنه جداگانه است که هر کدام یک پسر جوان (شیائو مینگ) را در حال انجام یک فعالیت روزانه متفاوت با سبک هنری متفاوت نشان می‌دهد. صحنه اول، در گوشه بالا سمت چپ، به سبک عکاسی فوق واقع‌گرایانه ارائه شده است. سوژه، پسری از آسیای شرقی، تقریباً هشت ساله، با لباس فرم مدرسه ابتدایی مرتب با یک پیراهن آستین کوتاه سفید، شلوارک آبی و یک پارچه قرمز که دور گردنش بسته شده است. او یک کوله پشتی آبی حمل می‌کند و در حال رفتن به مدرسه است. او در پیش‌زمینه، کمی به سمت راست، لبخند می‌زند و با سرعت راه می‌رود. صحنه در اوایل صبح گرفته شده است، با نور ملایم خورشید که از بالا سمت چپ فیلتر می‌شود و سایه‌های نرم و واضحی بر پیاده‌رو می‌اندازد. در پس‌زمینه، یک خیابان درختکاری شده و دروازه‌های آهنی فرفورژه مدرسه که به طور مبهمی قابل مشاهده هستند، یک فضای آرام صبحگاهی ایجاد می‌کنند. تصویر به طرز چشمگیری جزئیات دارد، درخشش موهای پسر، چین و چروک لباس‌هایش و بوم کوله پشتی‌اش به وضوح قابل مشاهده است و کیفیت یک عکس حرفه‌ای را مجسم می‌کند. صحنه دوم، در گوشه بالا سمت راست، به سبک انیمه‌های سل‌شید (cel shade) ژاپنی ارائه شده است. در این نقاشی، پسر جوانی پشت میز ناهارخوری چوبی خانواده‌اش نشسته و ناهار می‌خورد. شخصیت او شبیه انیمه است، با چشمانی بزرگ و درخشان و چهره‌ای تمیز. او یک تی‌شرت زرد ساده پوشیده و با چوب غذاخوری از کاسه‌ای برنج برمی‌دارد. یک کاسه سوپ و دو بشقاب غذای خانگی روی میز قرار داده شده است. پس‌زمینه، فضای داخلی گرمی است، با پنجره‌ای روشن که آفتاب ظهر را فیلتر می‌کند و آسمانی آبی و ابرهای سفید در آن سوی آن. نقاشی پر جنب و جوش و اشباع شده است، با خطوط کلی شخصیت‌های برجسته و مشخص و سایه‌های مسطح و بلوکی، به سبک انیمیشن کلاسیک سل‌شید. صحنه سوم، در گوشه پایین سمت چپ، به سبک طراحی مدادی ظریف ارائه شده است. این تصویر، پسر جوانی را نشان می‌دهد که بعد از ظهر در زمین بازی فوتبال بازی می‌کند. کل تصویر از سایه‌های مختلف گرافیت تشکیل شده است، بدون رنگ‌های دیگر. پسر بچه که پیراهن ورزشی آستین کوتاه و شلوارک پوشیده، به جلو خم شده و پای راستش آماده شوت کردن توپ فوتبال است و حرکاتش پر از حرکت است. پس‌زمینه یک زمین بازی خالی و یک دروازه در دوردست است که با خطوط ساده مشخص شده است. هنرمند از تکنیک‌های هاشور متقاطع و لکه‌گذاری برای انتقال نور، سایه و حجم استفاده می‌کند. ضربات مداد به طور کامل سایه‌های روی توپ، خطوط عضلانی چهره‌ها و بافت خشن زمین را به تصویر می‌کشد. این نقاشی مدادی، روابط نور و سایه و کیفیت زیبایی‌شناسی خطوط را برجسته می‌کند. صحنه چهارم، در گوشه پایین سمت راست، به سبک پست امپرسیونیست ونسان ون گوگ تفسیر شده است. این نقاشی، پسر جوانی را نشان می‌دهد که شب هنگام به تنهایی در کنار رودخانه ماهیگیری می‌کند. او روی صخره‌ای نشسته و یک چوب ماهیگیری ساده در دست دارد و چهره‌اش در مقابل آبی عمیق آسمان شب کوچک به نظر می‌رسد. نقاط کانونی بصری نقاشی، آسمان و آب هستند. آسمان پر از سحابی‌های چرخان و حلقه‌ای است و ستارگان و ماه به صورت توده‌های عظیم و درخشان به تصویر کشیده شده‌اند. در این اثر از ایمپاستو (رنگ روغن غلیظ) با ضربات قلم‌موهای جسورانه و پرانرژی استفاده شده است. آبی پررنگ، زرد روشن و سفید در سراسر بوم در هم تنیده‌اند و تأثیر بصری قدرتمندی ایجاد کرده‌اند. آب، نور و سایه‌های کج و معوج آسمان را منعکس می‌کند و صحنه را با احساسات شدید و زیبایی متلاطم که مشخصه آثار ون گوگ است، آغشته می‌کند. این نقاشی ادای احترامی عمیق به سبک ون گوگ است.

نمونه۶

یک نمودار شبکه‌ای نه مربعی نحوه‌ی طراحی یک طوطی را با استفاده از تکنیک‌های طراحی، از منظر افقی نشان می‌دهد. ترکیب کلی، با نه قاب مربعی با اندازه‌ی یکسان که به طور مساوی در سه ردیف و سه ستون روی یک پس‌زمینه‌ی خاکستری روشن قرار گرفته‌اند، مرتب است و به وضوح کل فرآیند را از شکل اولیه تا محصول نهایی نشان می‌دهد. ردیف اول، از چپ به راست، مراحل اولیه‌ی طراحی را نشان می‌دهد. در قاب اول، در گوشه‌ی بالا سمت چپ، خطوط ساده‌ی مداد، شکل هندسی اولیه‌ی طوطی را ترسیم می‌کنند: یک دایره برای سر و یک بیضی کمی بزرگتر برای بدن. یک عدد کوچک “1” در گوشه‌ی بالا سمت راست ظاهر می‌شود. در قاب دوم، طرح مثلثی منقار و یک خط منحنی بلند، پایه‌ی دم را تشکیل می‌دهند و یک خط صاف‌تر در محل اتصال سر و بدن اضافه می‌کنند. عدد “2” در گوشه‌ی بالا سمت راست مشخص شده است. در قاب سوم در سمت راست، طرح کلی طوطی با تاج روی سر و طرح دایره‌ای واضح چشم، بیشتر اصلاح شده است. عدد “3” در گوشه‌ی بالا سمت راست مشخص شده است. ردیف دوم بر افزودن ساختار و جزئیات تمرکز دارد و مراحل میانی نقاشی را به تصویر می‌کشد. در قاب چهارم در سمت چپ، شکل اولیه بال‌ها به بدن طوطی اضافه شده است. یک شاخه افقی در زیر بدن به عنوان یک نشیمنگاه کشیده شده است، که در ابتدا چنگال‌های طوطی روی شاخه قرار گرفته‌اند. عدد “4” در گوشه بالا سمت راست مشخص شده است. در قاب پنجم در مرکز، پرهای روی بال‌ها و دم ، با استفاده از خطوط کوتاه و تیز برای ایجاد حس عمق و به وضوح نشان دادن گرفتن چنگال‌ها روی شاخه شروع به اصلاح می‌کنند. عدد “5” در گوشه بالا سمت راست مشخص شده است. در قاب ششم در سمت راست، سایه‌زنی اولیه شروع می‌شود، با استفاده از هاشور متقاطع برای ایجاد حجم در شکم، زیر بال‌ها و گردن. عدد “6” در گوشه بالا سمت راست مشخص شده است. ردیف سوم آخرین جزئیات و پرداخت را نشان می‌دهد. در قاب هفتم در سمت چپ پایین، طرح متراکم‌تر می‌شود، سایه‌ها غنی‌تر می‌شوند، بافت پرها با دقت جزئیات می‌شود و هایلایت‌ها به چشم‌ها اضافه می‌شوند و آنها را درخشان می‌کنند. عدد “7” در گوشه بالا سمت راست مشخص شده است. در فریم هشتم، تمرکز به سمت نشیمنگاه تغییر می‌کند و جزئیاتی به بافت و گره‌های شاخه اضافه می‌کند. روابط کلی نور و سایه روی طوطی تنظیم شده است تا سه بعدی بودن آن را افزایش دهد؛ عدد “8” در گوشه بالا سمت راست مشخص شده است. فریم نهم، در گوشه پایین سمت راست، نقاشی نهایی است. هر خط با کنتراست قوی نور و سایه اصلاح شده است و به وضوح بافت پرهای طوطی و زبری نشیمنگاه چوبی را به تصویر می‌کشد و یک طرح کامل و دقیق ایجاد می‌کند؛ عدد “9” در گوشه بالا سمت راست مشخص شده است. نورپردازی در کل نقاشی یکنواخت و روشن است، بدون هیچ جهت خاصی از منبع نور، که وضوح بصری را در هر مرحله تضمین می‌کند. سبک کلی آموزش تصویرسازی دیجیتال واضح و سازمان‌یافته است.

نمونه۷

یک پوستر طراحی گرافیکی مدرن، تمام قاب را اشغال کرده و ترکیبی ساده و یک قطعه مرکزی برجسته را به نمایش می‌گذارد. این پوستر، پنگوئن Tencent QQ، شخصیت مرکزی را به تصویر می‌کشد. بدن پنگوئن که به سبک کارتونی سه‌بعدی و براق ارائه شده است، عمدتاً سیاه پررنگ و زیر شکم آن سفید خالص است. چشمان بزرگ و گرد آن با کنجکاوی به جلو خیره شده‌اند. منقار کوچک و سه‌بعدی زرد رنگ و پاهایش که آن هم زرد پررنگ است، محکم ایستاده‌اند. یک شال قرمز خاص، با بافت پارچه‌ای ظریف و انتهای طبیعی آویزان، به زیبایی دور گردنش بسته شده است. سایه تمیز و براق پنگوئن، با لبه‌های صاف، کیفیت یک تصویرسازی دیجیتالی پیچیده را به نمایش می‌گذارد. پس‌زمینه پوستر دارای شیب ملایمی از آبی روشن به سفید است که حس فضای باز و روشن را ایجاد می‌کند. در پشت پنگوئن، لکه‌های نوری دایره‌ای کم‌رنگ و تار و پرتوهای نور نرم و انتزاعی، عمق ظریف و حس فناوری را به این طراحی گرافیکی مینیمالیستی می‌افزایند. متن در پایین تصویر در مرکز قرار گرفته است. نیمه بالایی شامل یک خط متن کمی بزرگتر با فونت سیاه پررنگ است که روی آن”Hunyuan Image3.0 ” نوشته شده است .بلافاصله زیر این خط، یک خط متن کمی کوچکتر با فونت خاکستری تیره پررنگ وجود دارد که روی آن “Native Multimodal Large Model” نوشته شده است. هر دو خط متن واضح و خوانا هستند و با سبک کلی طراحی گرافیک مدرن سازگارند. نورپردازی کلی روشن و یکنواخت است و هیچ سایه قابل توجهی وجود ندارد که پنگوئن و متن را برجسته می‌کند و الزامات بصری یک پوستر طراحی مدرن را برآورده می‌کند. این تصویر، سبک پوستر طراحی گرافیک مدرن و ساده‌ای را مجسم می‌کند.

📊 ارزیابی

🤖 SSAE (ارزیابی ماشینی)

SSAE یا Structured Semantic Alignment Evaluation (ارزیابی هم‌ترازی معنایی ساختاریافته) یک معیار ارزیابی هوشمند برای هم‌ترازی تصویر-متن مبتنی بر مدل‌های زبان بزرگ چندوجهی پیشرفته (MLLM) است. ما ۳۵۰۰ نکته کلیدی را در ۱۲ دسته استخراج کردیم، سپس از مدل‌های زبان بزرگ چندوجهی برای ارزیابی خودکار و امتیازدهی با مقایسه تصاویر تولید شده با این نکات کلیدی بر اساس محتوای بصری تصاویر استفاده کردیم. میانگین دقت تصویر، میانگین امتیاز تصویر را در تمام نقاط کلیدی نشان می‌دهد، در حالی که دقت کلی مستقیماً میانگین امتیاز را در تمام نقاط کلیدی محاسبه می‌کند.

👥 GSB (ارزیابی انسانی)

این مدل با روش ارزیابی good/same/bad یا GSB (خوب/مشابه/بد) را که معمولاً برای ارزیابی عملکرد نسبی بین دو مدل از دیدگاه کلی درک تصویر استفاده می‌شود، مورد بررسی قرار گرفته است . در مجموع، از ۱۰۰۰ نمونه متن استفاده گردیده است و تعداد مساوی از نمونه‌های تصویر را برای همه مدل‌های مقایسه شده در یک اجرا تولید شدند. برای مقایسه منصفانه، فقط یک بار برای هر نمونه استنباط انجام شده و از هرگونه گزینش نتایج اجتناب گردیده است. هنگام مقایسه با روش‌های پایه، تنظیمات پیش‌فرض برای همه مدل‌های انتخاب شده انتخاب گردیده و ارزیابی توسط بیش از ۱۰۰ ارزیاب حرفه‌ای انجام شده است.