تولید تصویر با ابزار هوش مصنوعی میدجرنی

هوش مصنوعی میدجورنی (Midjourney) یکی از پیشرفته‌ترین نمونه‌های «هوش مصنوعی مولد (Generative AI) است که با استفاده از متن‌های توصیفی، تصاویر دیجیتال خلق می‌کند. این ابزار توسط تیمی به رهبری دیوید هولز (David Holz)، یکی از بنیان‌گذاران شرکت فناوری Leap Motion، توسعه یافته است.

Midjourney برخلاف بسیاری از ابزارهای مشابه، به عنوان یک پروژه مستقل فعالیت می‌کند و تاکنون هیچ سرمایه‌گذاری خارجی دریافت نکرده است. این در حالی است که رقبایی مانند DALL·E )از شرکت (OpenAI با میلیاردها دلار سرمایه‌گذاری توسعه یافته‌اند.

برای استفاده از Midjourney، نیازی به نصب نرم‌افزار یا سخت‌افزار خاص نیست. این ابزار به‌صورت کامل از طریق پلتفرم پیام‌رسان دیسکورد (Discord) اجرا می‌شود و تنها کافی‌ست کاربر با استفاده از دستور /imagine و وارد کردن یک پرامپت (prompt) یا توصیف متنی، تصویر مورد نظر خود را تولید کند.

نتایج تولید شده توسط Midjourney معمولاً کیفیت بصری بسیار بالا دارند و گاهی چنان واقعی یا هنری هستند که می‌توانند حتی کارشناسان گرافیک و عکاسی را نیز شگفت‌زده کنند. در برخی موارد، تصاویر ساخته شده با این ابزار در فضای مجازی به‌عنوان تصاویر واقعی منتشر شده‌اند و توجه زیادی را جلب کرده‌اند.

Midjourney در کنار ابزارهایی نظیر DALL·E و Stable Diffusion، به یکی از نام‌های مطرح در حوزه تولید تصویر با هوش مصنوعی تبدیل شده است. این ابزار به دلیل کیفیت خروجی بالا، رابط کاربری ساده، و پشتیبانی از سبک‌های متنوع هنری، مورد توجه طراحان، هنرمندان دیجیتال، تولیدکنندگان محتوا و علاقه‌مندان به فناوری قرار گرفته است.

هوش مصنوعی میدجورنی چطور کار می‌کند؟

Midjourney برای تولید تصاویر از متن، از ترکیب دو فناوری پیشرفته در حوزه یادگیری ماشین استفاده می‌کند:
مدل‌های زبانی بزرگ (Large Language Models – LLMs)
مدل‌های انتشاری (Diffusion Models)

این دو مدل به شکل مکمل عمل می‌کنند تا بتوانند متن‌های توصیفی کاربران را به تصاویر بصری واقعی، هنری یا خیالی تبدیل کنند.

1- درک متن با مدل زبانی بزرگ (LLM)

وقتی شما یک جمله‌ی توصیفی وارد می‌کنید (مانند : یک اژدهای آبی در حال پرواز در آسمان شب با ستاره‌های درخشان(، مدل زبانی Midjourney ابتدا این متن را تحلیل می‌کند. این مدل مشابه تکنولوژی‌هایی مانند ChatGPT یا Gemini عمل می‌کند.

در این مرحله:

مدل زبانی تلاش می‌کند تا معنای دقیق کلمات، سبک مورد نظر، اجزای کلیدی، احساسات و ترکیب مفاهیم را درک کند.

سپس متن شما به یک بردار عددی (Vector) تبدیل می‌شود. این بردار، همان ورودی اصلی برای مرحله بعدی یعنی «مدل انتشار» است.

2- ساخت تصویر با مدل انتشاری (Diffusion Model)

مدل‌های انتشاری نوعی الگوریتم تولید تصویر هستند که در سال‌های اخیر به‌طور گسترده در هوش مصنوعی مورد استفاده قرار گرفته‌اند. این مدل‌ها با یادگیری از میلیون‌ها تصویر آموزش‌دیده، می‌توانند تصاویر کاملاً جدید خلق کنند.

فرآیند به این صورت است:

ابتدا مدل با یک تصویر کاملاً پر از نویز (شبیه به برفک تلویزیون) شروع می‌کند.

سپس با کمک بردار دریافتی از مدل زبانی، مرحله‌به‌مرحله نویز را از تصویر حذف می‌کند.

در هر مرحله، تصویر واضح‌تر می‌شود و کم‌کم ویژگی‌هایی مطابق با توصیف کاربر شکل می‌گیرد.

در پایان، یک تصویر کامل و باکیفیت بر اساس توصیف متنی کاربر ارائه می‌شود.

این فرایند معمولاً بین ۳۰ ثانیه تا ۲ دقیقه طول می‌کشد. اگر آن را زودتر متوقف کنید، تصویر نهایی ناقص و همچنان نویزی خواهد بود.

آیا استفاده از Midjourney رایگان است؟

برخلاف برخی چت‌بات‌های هوشمند مانند ChatGPT یا Microsoft Bing AI که امکان استفاده نسبتاً نامحدود و رایگان را به کاربران می‌دهند، ابزارهای تولید تصویر مانند Midjourney به‌صورت اشتراکی و پولی ارائه می‌شوند. دلیل این تفاوت به ماهیت پردازشی سنگین فرآیند تولید تصویر با هوش مصنوعی بازمی‌گردد.

ایجاد هر تصویر در Midjourney نیازمند منابع سخت‌افزاری قدرتمندی است، به‌ویژه واحدهای پردازش گرافیکی (GPU) که در حذف نویز، تولید بافت، نورپردازی، رندر و بازسازی تصویر نقش کلیدی دارند. این فرآیندها بسیار پیچیده و پرهزینه‌اند و در هر بار اجرا، مقدار قابل توجهی از حافظه ویدیویی (VRAM) مصرف می‌شود. بنابراین، استفاده رایگان و نامحدود از چنین سیستمی، از نظر اقتصادی و فنی ممکن نیست.

Midjourney تنها در ابتدای عضویت (در برخی دوره‌ها) امکان تست رایگان محدود را برای کاربران فراهم می‌کند، اما برای استفاده مداوم، باید یکی از طرح‌های اشتراکی را خریداری کنید.

پلن‌های اشتراکی Midjourney به‌طور تقریبی:

پلن	قیمت ماهانه	زمان استفاده از GPU	تعداد تصاویر قابل تولید
Basic	حدود 10 دلار	حدود 3 ساعت GPU	حدود 200 تصویر در ماه
Standard	حدود 30 دلار	15 ساعت GPU + Fast Mode	بسیار بیشتر
Pro	حدود 60 دلار	30 ساعت GPU	برای کاربران حرفه‌ای
Mega Plan	حدود 120 دلار	60 ساعت GPU	برای تیم‌ها یا تولید انبوه

توجه: این زمان‌ها بر اساس “GPU rendering time” محاسبه می‌شوند. یعنی هر تصویر بسته به پیچیدگی‌اش چند ثانیه تا چند دقیقه از زمان GPU شما را مصرف می‌کند.

استفاده از Midjourney رایگان نیست و به دلیل نیاز به سخت‌افزارهای گران ‌قیمت برای پردازش تصویر، کاربران برای دریافت خدمات باید اشتراک ماهانه خریداری کنند. با این حال، نسبت به زمان، کیفیت خروجی و آزادی خلاقانه‌ای که ارائه می‌دهد، هزینه‌ی آن برای بسیاری از کاربران، به‌ویژه طراحان، هنرمندان دیجیتال، تولیدکنندگان محتوا و شرکت‌های تبلیغاتی، کاملاً منطقی و مقرون‌به‌صرفه است.

چگونه از هوش مصنوعی Midjourney‌ استفاده کنیم؟

برای خلق تصاویر هنری شگفت‌انگیز با هوش مصنوعی Midjourney، ابتدا باید وارد محیط آن شوید که از طریق پلتفرم پیام‌رسان Discord قابل دسترسی است. این ابزار بر خلاف اپلیکیشن‌های معمول، به صورت مستقیم روی وب یا موبایل نصب نمی‌شود؛ بلکه با عضویت در سرور Midjourney در Discord می‌توانید با آن تعامل داشته باشید.

در ادامه، مراحل استفاده از Midjourney به زبان ساده و گام‌به‌گام آورده شده است:

1- ساخت حساب کاربری در Discord

اگر هنوز حساب Discord ندارید:

مراحل تأیید ایمیل را انجام دهید تا حساب شما فعال شود.

وارد سایت رسمی دیسکورد شوید: https://discord.com

روی گزینه Sign Up کلیک کنید و اطلاعات خواسته‌شده مانند ایمیل، نام کاربری و رمز عبور را وارد کنید.

مراحل تأیید ایمیل را انجام دهید تا حساب شما فعال شود.

اگر قبلاً حساب دارید، کافیست وارد شوید.

1- ورود به سایت Midjourney و عضویت در سرور

وارد وب‌سایت رسمی Midjourney شوید: https://www.midjourney.com

در صفحه اصلی، روی گزینه

Join the Beta کلیک کنید.

با این کار، مستقیماً به Discord منتقل می‌شوید.

اگر وارد حساب کاربری نشده‌اید، دیسکورد از شما می‌خواهد که وارد شوید یا حساب بسازید.

سپس اجازه دهید که سرور رسمی Midjourney به لیست سرورهای شما اضافه شود.

1- ورود به کانال‌های تولید تصویر

پس از پیوستن به سرور:

در نوار کناری سمت چپ، وارد یکی از کانال‌های تولید تصویر مانند #newbies-116 یا #newbies-146 شوید.

این کانال‌ها محلی هستند که کاربران درخواست‌های تصویری خود را ثبت می‌کنند و خروجی‌ها را مشاهده می‌کنند.

1- وارد کردن دستور تولید تصویر

برای درخواست ساخت تصویر، در قسمت Message می‌توانید شرحی از توصیفاتی را بنویسید تا هوش مصنوعی Midjourney بر اساس آن، تصویری را برای شما تولید کند. باید به این نکته اشاره کرد که برای درخواست از هوش مصنوعی میدجورنی باید از یک سری دستورات خاص استفاده کنید. به عنوان مثال، اگر می‌خواهید تصویری را ایجاد کنید، باید قبل از شرح توصیفات، از کلمه کلیدی /imagine استفاده کنید و سپس پرامپت خود را بنویسید.

به عنوان مثال، در تصویر بالا ۴ تصویر از برش پیتزا را ملاحظه می‌کنید. برای ساخت این تصاویر، از پرامپت زیر استفاده شده است:

استفاده حرفه‌ای از ابزارهای هوش مصنوعی Midjourney

اگر با مراحل پایه‌ی استفاده از Midjourney آشنا هستید، وقت آن رسیده که به سطح بالاتری از مهارت برسید. استفاده حرفه‌ای از Midjourney به این معناست که بتوانید با کنترل دقیق پرامپت‌ها، استفاده از پارامترهای پیشرفته، ترکیب سبک‌ها و حتی استفاده از تصاویر مرجع، خروجی‌هایی باکیفیت، هدفمند و منحصربه‌فرد تولید کنید.

در ادامه، مهم‌ترین نکات و ابزارهای حرفه‌ای برای استفاده‌ی بهتر از Midjourney را معرفی می‌کنیم:

1- نگارش حرفه‌ای پرامپت (Prompt Crafting)

پرامپت، همان دستور توصیفی شما برای تولید تصویر است. کاربران حرفه‌ای یاد می‌گیرند که چگونه با دقت در کلمات، ترتیب آن‌ها، و اضافه‌کردن اصطلاحات فنی، خروجی را دقیقاً مطابق نیازشان تولید کنند.

مثال پایه:

مثال حرفه‌ای:

/imagine prompt: majestic medieval castle on a misty hilltop, glowing golden sunset, cinematic lighting, intricate details, –ar 16:9 –v 6.1 –style raw

2- استفاده از پارامترهای سفارشی (Parameters)

Midjourney امکان کنترل دقیق بر ابعاد، وضوح، سبک، نسخه مدل، کیفیت و جزئیات تصویر را با پارامترهای خاص فراهم می‌کند. این‌ها را در انتهای پرامپت خود اضافه کنید:

پارامتر	کاربرد
`ar 16:9--`	نسبت تصویر (Aspect Ratio)
`V 6.1--`	استفاده از نسخه مدل خاص
`style raw--`	حذف سبک پیش‌فرض و واقع‌گرایانه‌تر شدن تصویر
`q 2--`	کیفیت خروجی (1 پیش‌فرض، 2 بالاتر، اما مصرف GPU بیشتر)
`chaos 50--`	میزان خلاقیت و غیرقابل‌پیش‌بینی بودن خروجی
[کلمه] no–	حذف عنصر از تصویر (مثلاً: `--no text)`

3- ترکیب سبک‌ها و مرجع‌دهی هنری

برای خلق سبک خاص، می‌توانید سبک هنرمندان یا دوره‌های هنری را به پرامپت خود اضافه کنید:

/imagine prompt: futuristic cityscape, art by Moebius and H.R. Giger, cyberpunk aesthetic, –style raw

4- استفاده از تصویر مرجع (Image Prompting)

Midjourney به شما اجازه می‌دهد تصویر دلخواهی را آپلود کرده و در کنار پرامپت متنی استفاده کنید تا خروجی دقیق‌تر به تصویر اولیه نزدیک شود.

فرمت استفاده:

/imagine prompt: [URL تصویر] + [توضیح متنی]

تصویر مرجع باید لینک مستقیم با پسوند .jpg یا .png داشته باشد.

5-مدیریت رنگ، نور و ترکیب‌بندی

/imagine prompt: https://example.com/mydog.jpg in the style of Van Gogh, oil painting –ar 4:5

اگر هدف شما خروجی‌های تبلیغاتی، طراحی برند یا خلق فضاهای خاص است، می‌توانید کنترل بیشتری روی نورپردازی، رنگ‌بندی و ترکیب صحنه داشته باشید.

نمونه پیشرفته:

/imagine prompt: luxury product photo of perfume bottle on marble surface, soft shadows, diffused light, minimal color palette, elegant composition –ar 1:1 –style raw

6- ساخت مجموعه‌های یکپارچه

برای تولید تصاویر سریالی (مثلاً برای یک برند یا داستان)، باید از واژگان ثابت، سبک و ترکیب مشابه در پرامپت‌های مختلف استفاده کنید. حتی می‌توانید از یک تصویر مرجع برای ثبات شخصیت‌ها یا اشیاء کمک بگیرید.

7- استفاده از رفرنس‌های مد و طراحی صنعتی

اگر برای پروژه‌های مد، طراحی محصول یا معماری کار می‌کنید، ترکیب کلمات کلیدی تخصصی با سبک‌های بصری بسیار مهم است: مثلاً:

/imagine prompt: minimalist Scandinavian interior design, natural light, white oak wood, soft textures, modern furniture –ar 3:2

کاربردهای ابزار هوشمند Mdjourney:

ابزارهای مولد تصویر هوش مصنوعی کاربردهای مختلفی دارند و افراد فعال در حوزه رسانه‌های اجتماعی، به خصوص متخصصان تولید محتوا، عکاسان، طراحان، بازاریابان و حتی معماران و تمامی افرادی که قصد دارند تصویری از ایده‌های ذهنی خود را به نمایش بگذارند، می‌توانند از این ابزارها بهره ببرند. در فهرست زیر، برخی از مهم‌ترین کاربردهای ابزار هوش مصنوعی Midjourney‌ را ملاحظه می‌کنید:

1- طراحی گرافیکی و تصویرسازی

Midjourney برای طراحان گرافیک یک ابزار سریع و الهام‌بخش است. بدون نیاز به طراحی دستی، می‌توان ایده‌های خلاقانه را در قالب تصویر مشاهده و اجرا کرد.

تصویرسازی جلد کتاب، مجله، پوستر

طراحی کانسپت برای لوگو و برند

ایجاد بک‌گراندهای خلاقانه برای صفحات وب و اپلیکیشن

2- تولید محتوای تبلیغاتی و بازاریابی

تولید تصویر برای کمپین‌های تبلیغاتی همواره زمان‌بر و پرهزینه است. Midjourney می‌تواند در مدت چند دقیقه تصاویری مطابق با سبک برند تولید کند.

ساخت تصویر برای پست‌های اینستاگرام و شبکه‌های اجتماعی

طراحی بنرهای تبلیغاتی دیجیتال

تولید تصاویر شاخص (Thumbnail) برای ویدئوها و مقالات

3- مد و طراحی لباس

طراحان مد می‌توانند ایده‌های خود را بدون دوخت واقعی، در قالب تصویر مشاهده کنند. این کار باعث صرفه‌جویی در زمان و منابع می‌شود.

تصویرسازی لباس‌ها در سبک‌ها و رنگ‌های مختلف

ساخت کالکشن‌های فرضی و شبیه‌سازی فشن‌شو

خلق ترکیب‌های رنگی خلاقانه و طرح‌های پارچه

4- معماری و طراحی داخلی

معماران و طراحان داخلی از Midjourney برای ساخت رندرهای اولیه استفاده می‌کنند، حتی قبل از طراحی در نرم‌افزارهای CAD یا 3D.

خلق کانسپت دکوراسیون منزل، دفتر یا فضاهای عمومی

ترکیب سبک‌های معماری (مثلاً مینیمالیستی، کلاسیک، مدرن)

الهام برای طراحی فضاهای هنری یا نمای بیرونی ساختمان

5- تولید محتوای هنری و NFT

هنرمندان دیجیتال و تولیدکنندگان آثار NFT می‌توانند با Midjourney آثار منحصربه‌فردی خلق کنند.

ساخت مجموعه‌های NFT با سبک‌های خاص

ترکیب مفاهیم فرهنگی، فضایی یا تخیلی در قالب تصویر

تولید آثار هنری برای چاپ یا فروش در گالری‌های دیجیتال

6- داستان‌گویی تصویری (Visual Storytelling)

نویسندگان، فیلم‌سازان و بازی‌سازان از Midjourney برای تصویرسازی سناریوها و شخصیت‌ها استفاده می‌کنند.

طراحی کاراکترها و محیط‌ها برای بازی و انیمیشن

ساخت استوری‌بورد تصویری برای فیلم‌نامه‌ها

الهام گرفتن برای نوشتن داستان‌های علمی‌تخیلی یا فانتزی

7- آموزش و محتوای آموزشی

مدرسان، معلمان و تولیدکنندگان محتوای آموزشی می‌توانند از Midjourney برای ساخت تصاویر گویا استفاده کنند.

تصویرسازی مفاهیم علمی، تاریخی یا فرهنگی

ساخت پوسترهای آموزشی و اسلایدهای درسی

نمایش مفاهیم ذهنی یا انتزاعی با بصری‌سازی قوی

8- ایده‌پردازی و توسعه محصول

کسب‌وکارها، استارتاپ‌ها و تیم‌های طراحی محصول از Midjourney برای شبیه‌سازی اولیه محصولات خود استفاده می‌کنند.

تولید تصویر اولیه از یک محصول جدید (Prototyping)

بررسی جلوه‌های بصری قبل از طراحی صنعتی

کمک به جلسات طوفان فکری (Brainstorming)