تولید آثار هنری با هوش مصنوعی مولد برای افراد مبتدی

یک کتاب کاربردی و ساده برای افرادی که تازه با ابزارهای هوش مصنوعی، آشنا شده اند.

نام انگلیسی کتاب: Generative AI Art: A Beginner’s Guide to 10x Your Output with Killer Text Prompts

ترجمه فارسی نام کتاب: راهنمای مبتدی برای ۱۰ برابر کردن خروجی شما با دستورات متنی خارق‌العاده

نام انتشارات: Scatterplot Press

تعداد صفحات: 142

نمره در آمازون: 4.2 از 5

نمره در گودریدز: 3.93 از 5

1. مقدمه

هوش مصنوعی (AI) در مسیر متحول کردن کامل فضای خلاقیت است و این تحول شامل حوزه‌هایی مانند نویسندگی خلاق، هنر مولد، رندر سه‌بعدی، ویدئو، گفتار و موسیقی می‌شود. خروجی‌های نرم‌افزارهای مبتنی بر دستور متنی (Prompt-based software) هوش مصنوعی در حال حاضر بسیار چشمگیر هستند و با سرعتی باورنکردنی (در مقیاس ماه، نه سال) در حال بهبود کیفیت‌اند. یک روند سایه‌ای مهم که بسیاری نادیده می‌گیرند، تحول نرم‌افزارهای سنتی مانند فتوشاپ یا مایکروسافت آفیس است؛ نسخه‌های آینده این برنامه‌ها به‌جای تکیه بر اقدامات تکراری مانند کلیک و درگ برای جابجایی پیکسل‌ها، بیشتر به دستورات متنی و صوتی متکی خواهند بود تا به نرم‌افزار بگویند دقیقاً چه کاری انجام دهد. این انتقال قبلاً با اضافه شدن ابزارهای متن به تصویر به پلتفرم‌هایی مانند Figma، Canva و مجموعه Adobe آغاز شده است. این پیشرفت‌ها، صنعت خلاقیت را زیر و رو کرده و بخش کم‌درآمد بازار را به‌سرعت از بین می‌برند، به‌طوری که سایت‌های عمومی عکس استوک مانند Shutterstock در معرض خطر کامل منسوخ شدن قرار دارند، اگرچه پلتفرم‌های متنوع‌تر برون‌سپاری مانند Fiverr و Upwork هنوز فضای مانور دارند. با این حال، پذیرش کامل این فناوری، به‌ویژه در میان شرکت‌ها، به دلیل خطرات و نگرانی‌های اخلاقی زمان‌بر خواهد بود که در فصول آتی بیشتر به آن پرداخته می‌شود. این کتاب به‌عنوان راهنمایی برای ورود به این عرصه جدید، اصول اولیه هنر مولد هوش مصنوعی، تکنیک‌های رایج مانند ساخت دستور متنی و کادربندی را پوشش می‌دهد. نکته حائز اهمیت این است که خلق هنر هوش مصنوعی نیازی به دانش تخصصی برنامه‌نویسی یا حتی استعداد طراحی ندارد؛ بلکه ساختن یک دستور متنی خوب به تجربه عملی، آگاهی از تکنیک‌های ویژه و کمی تخصص در حوزه موضوعی مورد نظر نیاز دارد.

ایده اصلی

ایده اصلی کتاب بر این مبنا استوار است که هوش مصنوعی مولد، به‌ویژه ابزارهای تبدیل متن به تصویر مانند Midjourney و DALL-E، یک انقلاب در دسترس برای همه در دنیای هنر ایجاد کرده است. کتاب با آموزش درک پایه‌ای از نحوه عملکرد این سیستم‌ها (یادگیری تحت نظارت و NLP مبتنی بر GPT-3) و سپس تمرکز بر “هنر دستور متنی” (Prompt Artistry)، نشان می‌دهد که چگونه کاربران می‌توانند با استفاده از زبان طبیعی، دستورات دقیق و تعدیل‌کننده‌های سبک، خروجی‌های هنری را ۱۰ برابر بهبود بخشند. این راهنما نه تنها به جنبه‌های فنی ساخت تصاویر (مانند پارامترها، کادربندی و ماسک کردن) می‌پردازد، بلکه خواننده را از طریق ملاحظات حیاتی اخلاقی و حقوقی پیرامون اصالت اثر و حریم خصوصی راهنمایی می‌کند. هدف نهایی، توانمندسازی هر کسی است که می‌خواهد از هوش مصنوعی به‌عنوان یک همکار خلاق برای بیان دید هنری خود استفاده کند و در عین حال درک عمیقی از اینکه صنعت به سمت همکاری انسان و ماشین در “میانه‌ی گمشده” (The Missing Middle) در حرکت است، به دست آورد.

نکات کلیدی

اهمیت دستور متنی (Prompt): دستور متنی خوب، کلید موفقیت در هنر هوش مصنوعی است. برای دستیابی به خروجی‌های هدفمند، باید از زبان طبیعی، عبارات خاص و تعدیل‌کننده‌های سبکی (مانند “به سبک پوستر آرت دکو”) استفاده کرد.
پایه فنی: بیشتر نرم‌افزارهای هوش مصنوعی بر مدل GPT-3 و تکنیک یادگیری تحت نظارت متکی هستند، به این معنی که خروجی‌های تولید شده بر اساس میلیون‌ها تصویر برچسب‌گذاری شده‌ای هستند که مدل روی آن‌ها آموزش دیده است.
تخصص موضوعی: برای تولید تصاویر دقیق (مثلاً یک شوالیه قرون وسطایی خاص یا یک عکس با نورپردازی ویژه)، داشتن درکی از اصطلاحات تخصصی یا جزئیات حوزه موضوعی ضروری است.
استفاده از پارامترها: پارامترها (مانند --ar برای نسبت ابعاد، --no برای حذف عناصر، و Seed برای تکرار تصادفی‌سازی) ابزارهایی حیاتی برای کنترل خروجی فراتر از توصیف صرف تصویر هستند.
اخلاق و قانون: حوزه هنر هوش مصنوعی با ابهامات حقوقی قابل توجهی در مورد مالکیت و اصالت روبرو است؛ کاربران باید نسبت به حریم خصوصی (مانند عمومی بودن تصاویر در Midjourney) و استفاده از سبک‌های هنرمندان دیگر آگاه باشند.

۲. آشنایی مقدماتی با هوش مصنوعی

انقلابی در دنیای هنر در حال وقوع است که نرم‌افزارهایی مانند DALL-E، Midjourney، Stable Diffusion و Craiyon به کاربران این امکان را می‌دهند تا بدون نیاز به دانش کدنویسی یا تجربه هنری، در عرض چند ثانیه تصاویر را با استفاده از توضیحات متنی ساده تولید کنند. برای درک این پدیده، آشنایی با اصول اولیه هوش مصنوعی (AI) ضروری است. هوش مصنوعی در هسته خود، ماشین‌هایی را قادر می‌سازد که یاد بگیرند، مسائل را حل کنند و پاسخ‌های مناسب ارائه دهند. این امر از طریق توانایی تشخیص الگوها، تصمیم‌گیری و تعامل مستقل با انسان حاصل می‌شود. زیرمجموعه‌ای از هوش مصنوعی که برای تولید هنر استفاده می‌شود، ترکیبی از پردازش زبان طبیعی (NLP)، بینایی کامپیوتر (Computer Vision) و یادگیری ماشین (Machine Learning) است. یادگیری ماشین به‌عنوان ستون فقرات هوش مصنوعی، به کامپیوترها توانایی یادگیری بدون برنامه‌نویسی صریح را می‌دهد. تصمیم‌گیری در این مدل‌ها با رمزگشایی روابط و الگوها از داده‌های ورودی صورت می‌گیرد و خروجی مدل توسط محتوای داده‌های ورودی تعیین می‌شود، نه قوانین از پیش تعیین شده توسط برنامه‌نویس. یادگیری تحت نظارت (Supervised Learning)، که مرتبط‌ترین تکنیک برای هنر هوش مصنوعی است، شامل استخراج الگوها از مثال‌های شناخته شده (زوج‌های ورودی-خروجی) است تا یک نتیجه تکرارپذیر مهندسی شود. در مورد هنر هوش مصنوعی، الگوریتم به میلیون‌ها تصویری که با توصیفات متنی برچسب‌گذاری شده‌اند (مثلاً ۶۵۰ میلیون تصویر برای DALL-E) نگاه می‌کند تا ارتباط بین متن (ورودی) و تصویر (خروجی) را درک کند و بیاموزد که یک شیء خاص بر اساس مثال‌ها چگونه به نظر می‌رسد. علاوه بر این، NLP نوآوری کلیدی دیگری است که به کامپیوترها کمک می‌کند تا گفته‌های انسان را درک کنند و معنای پشت متن و گفتار را تشخیص دهند. پیشرفت‌های اخیر در هنر هوش مصنوعی عمدتاً به لطف مدل پیشرفته زبان GPT-3 (Generative Pre-trained Transformer) توسعه یافته توسط OpenAI به دست آمده است. GPT-3 با آموزش بر روی ۵۷۰ گیگابایت اطلاعات متنی، توانایی تولید هنر، موسیقی و متن را از دستورات متنی به دست آورده است. هنر مولد هوش مصنوعی (Generative AI Art) از این قابلیت‌ها برای تولید تصاویر منحصربه‌فرد و پیچیده با حداقل ورودی از کاربر استفاده می‌کند و به هنرمندان اجازه می‌دهد تا خلاقیت خود را با قدرت هوش مصنوعی ترکیب کنند تا مرزهای هنری و فنی را جابجا کنند.

۳. هنر دستور متنی

برای خلق هنر مولد هوش مصنوعی، باید یک دستور متنی (Text Prompt) ارائه داد که در واقع دستورالعملی برای هوش مصنوعی در مورد آنچه می‌خواهید خلق شود، می‌باشد. هیچ روش یا کد ثابتی برای نوشتن یک دستور متنی وجود ندارد؛ یک دستور می‌تواند فهرستی از کلمات جدا شده با کاما، یک پاره‌جمله، یا یک جمله کامل باشد. نکته مهم این است که از زبان طبیعی (مانند زبان محاوره‌ای روزمره) استفاده شود، زیرا هوش مصنوعی بر اساس این زبان آموزش دیده است، و دستور زبان صحیح ضروری نیست. در حالت کلی، هرچه دستور متنی شما خاص‌تر و جزئی‌تر باشد، خروجی نهایی شما مشخص‌تر خواهد بود و به تکرارهای کمتری برای رسیدن به نتیجه مطلوب نیاز دارید. اینجاست که تعدیل‌کننده‌ها (Modifiers) وارد عمل می‌شوند. در حالی که دستور اصلی اشیا و روابط آن‌ها را توصیف می‌کند، یک تعدیل‌کننده دستورالعمل‌های اضافی را در مورد سبک طراحی مورد نظر اضافه می‌کند (مثلاً “به سبک یک پوستر آرت دکو دهه ۱۹۲۰”). استفاده از کلمات وصفی یا اصطلاحات یک دوره هنری مانند “آرت دکو” به‌طور خودکار ویژگی‌های تعریف شده‌ای مانند رنگ‌های غنی، تزیینات مجلل، اشکال هندسی و حتی جنس مواد را به تصویر اضافه می‌کند. همچنین می‌توانید جزئیات بیشتری مانند مکان (مثلاً وال استریت، نیویورک)، آب و هوا، زمان روز، یا پیش‌زمینه سیاسی/اجتماعی را اضافه کنید تا تصویر هدفمندتری ایجاد شود. برای عکاسی تولید شده توسط هوش مصنوعی، می‌توانید از اصطلاحات تخصصی حوزه (Domain-specific terminology) استفاده کنید تا جزئیاتی مانند سرعت شاتر، انتخاب لنز، نورپردازی و کادربندی را تعریف کنید، یا همه این ویژگی‌ها را در یک عبارت سبکی مانند “عکس اکشن” یا “کاور نشنال جئوگرافیک” خلاصه کنید. توسعه توانایی توصیف هنر بصری با کلمات یک مهارت کلیدی است که با گذشت زمان بهبود می‌یابد. علاوه بر این، داشتن تخصص در موضوع برای اطمینان از صحت جزئیات مهم است؛ مثلاً، برای تصویرسازی یک شوالیه قرون وسطایی خاص، باید تفاوت‌های مد، طبقه اجتماعی و تسلیحات آن دوره را بدانید. در مقابل دستورات دقیق، می‌توان از دستورات مبهم نیز استفاده کرد تا به هوش مصنوعی اجازه دهید ابتکار عمل خلاقانه را در دست بگیرد، که این کار در مواردی که مرجع موجود کمیاب است (مانند یک استادیوم در متاورس) مفید است. نکته نهایی این است که نتایج دستور متنی یکسان در نرم‌افزارهای مختلف، متفاوت خواهد بود؛ به‌عنوان مثال Midjourney به سبک هنری و انتزاعی متمایل است، در حالی که DALL-E و Craiyon در انتهای محافظه‌کارانه و تحت‌اللفظی طیف طراحی قرار دارند.

۴. نرم‌افزار هنر هوش مصنوعی

بازار نرم‌افزارهای هنر هوش مصنوعی به سرعت در حال رشد است و پلتفرم‌های متعددی توانایی تبدیل متن به تصویر را در اختیار کاربران قرار می‌دهند. در میان این ابزارها، DALL-E و Midjourney به‌عنوان پیشگامان شناخته می‌شوند که هر کدام رویکرد متمایزی به تولید هنری دارند. DALL-E که توسط OpenAI توسعه یافته است، یک پلتفرم قدرتمند مبتنی بر وب است که به‌خاطر توانایی‌اش در درک دستورات متنی پیچیده و تولید تصاویر هم انتزاعی و هم واقعی شناخته می‌شود. DALL-E دارای یک رابط کاربری بصری و آسان است و به‌ویژه ابزار آپلود تصویر آن برای دستکاری عکس‌های موجود و افزودن عناصر جدید بسیار عالی است. کاربران می‌توانند به راحتی بخش‌هایی از یک تصویر را با استفاده از ابزار ویرایش و ماسک کردن تغییر دهند و نتایج بسیار باکیفیتی تولید کنند. در مقابل، Midjourney نسبت به DALL-E فضایی متفاوت‌تر و به نوعی آشفته‌تر دارد و بیشتر به سمت یک سبک هنری خاص متمایل است که اغلب تصاویری با حال و هوای فانتزی، سورئال یا سینمایی تولید می‌کند. Midjourney تا حد زیادی به‌عنوان یک برنامه مستقل وب منتشر نشده است و تعامل اصلی کاربران با آن از طریق پلتفرم Discord انجام می‌شود. این تفاوت در رابط کاربری و شیوه تعامل باعث می‌شود Midjourney حسی از یک جامعه باز و اشتراکی را ایجاد کند، اگرچه این امر ملاحظات حریم خصوصی خاص خود را نیز به همراه دارد. انتخاب نرم‌افزار به شدت به نتیجه هنری مورد نظر کاربر وابسته است: DALL-E اغلب برای نتایج تحت‌اللفظی و ویرایش‌های دقیق مبتنی بر تصویر اصلی بهتر عمل می‌کند، در حالی که Midjourney اغلب برای خلق آثاری با سبک بصری قوی و خلاقانه ارجحیت دارد. Craiyon و Stable Diffusion نیز گزینه‌های دیگری هستند که هر کدام مجموعه قابلیت‌ها و سبک‌های خروجی خاص خود را دارند و انتخاب نهایی به ترجیحات و اهداف هنری فرد بستگی دارد.

۵. نمایش عملی Craiyon

Craiyon، که قبلاً با نام DALL-E mini شناخته می‌شد، در مقایسه با نرم‌افزارهایی مانند Midjourney، بیشتر در انتهای محافظه‌کارانه و تحت‌اللفظی طیف طراحی قرار می‌گیرد. این نرم‌افزار به دلیل سادگی و دسترسی رایگان، اغلب به‌عنوان نقطه شروعی برای مبتدیان شناخته می‌شود. Craiyon تلاش می‌کند تا دستور متنی را تا حد امکان به‌صورت مستقیم و تحت‌اللفظی تفسیر کند، که این امر منجر به تولید تصاویری می‌شود که ممکن است فاقد سبک هنری خاص و قوی ابزارهایی مانند Midjourney باشند. در واقع، این سادگی و تمایل به تفسیر مستقیم، آن را به ابزاری عالی برای آزمایش‌های اولیه و درک نحوه عملکرد دستورات متنی تبدیل می‌کند، بدون اینکه کاربر را با پیچیدگی‌های تنظیمات یا سبک‌های بصری منحصر به فرد مدل‌های پیشرفته‌تر درگیر کند. نتایج تولید شده در Craiyon اغلب ۹ تصویر در یک شبکه هستند که به کاربر این امکان را می‌دهد تا از بین چندین تفسیر بصری از دستور خود یکی را انتخاب کند. اگرچه کیفیت رندرینگ و جزئیات تصاویر Craiyon ممکن است به‌اندازه DALL-E 2 یا Midjourney نباشد، اما نقش مهمی در دموکراتیزه کردن هنر هوش مصنوعی ایفا می‌کند، زیرا هر کسی می‌تواند بدون نیاز به اعتبارنامه یا دانش فنی زیاد، اولین آثار هنری خود را بسازد. این فصل عملی به کاربران می‌آموزد که چگونه با دستورات ساده در Craiyon شروع به کار کنند و تفاوت‌هایی که تفسیر تحت‌اللفظی آن با سایر مدل‌های هنری هوش مصنوعی ایجاد می‌کند را درک کنند. این یک گام اساسی برای درک این نکته است که نرم‌افزارهای مختلف هوش مصنوعی نتایج متفاوتی را تولید می‌کنند و هر کدام دارای نقاط قوت و ضعف خاصی هستند که باید بر اساس سبک مورد نظر در دستور متنی لحاظ شوند.

۶. نمایش عملی Midjourney

Midjourney یک ابزار تولید هنر هوش مصنوعی است که تمایل زیادی به سبک‌های هنری، فانتزی و بصری قوی دارد و اغلب خروجی‌هایی با کیفیت سینمایی یا هنرهای زیبا تولید می‌کند. کار با Midjourney عمدتاً از طریق محیط Discord انجام می‌شود و کاربران دستورات خود را در چت‌روم‌ها (عمومی یا خصوصی) وارد می‌کنند. این فصل به جزئیات تعامل با Midjourney می‌پردازد، به‌ویژه در مورد فرآیند تولید تصویر و مدیریت خروجی‌ها. یک تکنیک کاربردی و کلیدی در Midjourney استفاده از ایموجی پاکت نامه (✉) است. با افزودن این ایموجی به‌عنوان واکنش به تصویر تولید شده، می‌توان تصویر و تمامی داده‌های مرتبط (از جمله شماره کار و شماره Seed) را به پیام‌های مستقیم خود در Discord ارسال کرد. این قابلیت به کاربر اجازه می‌دهد تا متادیتای مهم برای بازتولید یا ادامه کار روی یک اثر خاص را حفظ کند. همچنین، این داده‌ها برای استفاده از فرمان /show حیاتی هستند؛ با وارد کردن شماره کار، کاربران می‌توانند یک کار قدیمی را در هر کانال رباتی “احیا” کنند، حتی اگر دسترسی به دستور متنی اصلی را از دست داده باشند. این ویژگی‌ها کارایی Midjourney را برای پروژه‌های طولانی‌مدت و نیاز به تکرارپذیری بهبود می‌بخشند. ماهیت Midjourney به‌عنوان یک جامعه باز که تصاویر در چت‌روم‌های عمومی قابل مشاهده هستند، یک جنبه مهم است که در فصل ۱۳ (اخلاق و حریم خصوصی) به آن پرداخته شده است. در مجموع، نمایش عملی Midjourney بر استفاده از محیط Discord برای خلق آثار هنری با سبک بصری قوی، و همچنین تکنیک‌های ضروری برای حفظ، بازیابی و تکرارپذیری آثار تولید شده با استفاده از متادیتای تولید شده توسط هوش مصنوعی تأکید دارد.

۷. دستورات تصویر و پوشاندن (ماسک کردن)

فصل دستورات تصویر و پوشاندن (Masking) بر تکنیک‌های پیشرفته ویرایش و اصلاح تصاویر تولید شده توسط هوش مصنوعی متمرکز است که عمدتاً در ابزارهای دارای قابلیت ویرایش مانند DALL-E 2 Editor یافت می‌شوند. ماسک کردن شامل پاک کردن یا محو کردن بخشی از یک تصویر موجود است تا کاربر بتواند یک دستور متنی جدید وارد کند و هوش مصنوعی آن ناحیه پاک شده را با محتوای جدید پر کند. این تکنیک، که به عنوان inpainting شناخته می‌شود، امکان دستکاری و اصلاح هدفمند تصاویر را فراهم می‌آورد. یک توصیه مهم در این فصل از راهنمای ویرایشگر DALL-E ارائه شده است: هنگام ویرایش، ابتدا بر روی سوژه اصلی یا شخصیت تمرکز کنید و ویرایش پس‌زمینه را به انتها موکول کنید. این روش به هوش مصنوعی کمک می‌کند تا ریخت‌شناسی بدن (body morphology) سوژه انسانی را به درستی تنظیم کند که معمولاً بخش دشوارتر است، قبل از اینکه جزئیات کم‌اهمیت‌تر پس‌زمینه اضافه شود. علاوه بر این، این فصل به استفاده از تصاویر آپلود شده به‌عنوان نوعی دستور متنی نیز می‌پردازد، به‌طوری که کاربر می‌تواند عکس‌های موجود را آپلود کرده و از هوش مصنوعی بخواهد تا عناصر جدیدی را اضافه یا سبک آن را تغییر دهد. با این حال، نویسنده هشدار می‌دهد که حتی هنگام ویرایش یک ناحیه کوچک با ماسک، هوش مصنوعی ممکن است عناصر دیگر پس‌زمینه را نیز تغییر دهد. بنابراین، تأکید می‌شود که دستور متنی جدید باید به کل تصویر (نه فقط ناحیه پاک شده) مربوط باشد تا خروجی نهایی یکپارچگی بصری خود را حفظ کند و به‌طور منطقی با محیط موجود ترکیب شود. این تکنیک‌های ویرایش هوش مصنوعی در نهایت به کاربران این امکان را می‌دهند تا تصاویر را به دیدگاه خلاقانه خود نزدیک‌تر کنند.

۸. کادربندی و نورپردازی

کادربندی (Framing) و نورپردازی (Lighting) از عناصر حیاتی در هنر بصری هستند و این فصل بر نحوه استفاده مؤثر از اصطلاحات مربوط به این دو حوزه در دستورات متنی برای کنترل خروجی هوش مصنوعی تمرکز دارد. برای عکاسی تولید شده توسط هوش مصنوعی، به‌جای توصیف کلی، می‌توان از اصطلاحات تخصصی عکاسی و فیلم‌سازی برای تعریف دقیق کادربندی و نورپردازی استفاده کرد. به‌عنوان مثال، می‌توان جزئیاتی مانند «زاویه بالا (High Angle)»، «نمای نزدیک (Close-Up)»، «نورپردازی سه‌نقطه‌ای (Three-Point Lighting)»، «نور ریم (Rim Light)» یا حتی «سرعت شاتر» و «انتخاب لنز» را در دستور متنی گنجاند. این اصطلاحات فنی به هوش مصنوعی کمک می‌کنند تا یک محیط بسیار دقیق و جوی را رندر کند. اگر دسترسی به اصطلاحات فنی محدود است، می‌توان با دسته‌بندی ویژگی‌ها در یک سبک عکاسی شناخته شده، نتیجه مشابهی به دست آورد. مثلاً استفاده از عباراتی مانند «عکس اکشن»، «جلد نشنال جئوگرافیک»، «عکاسی خیابانی» یا «فتوشوت مجله ووگ» تمام ویژگی‌های کادربندی، نورپردازی و کیفیت مرتبط با آن سبک خاص را به هوش مصنوعی منتقل می‌کند. نویسنده تأکید می‌کند که توانایی بیان و توصیف هنر بصری با کلمات یک مهارت ارزشمند است که با تمرین توسعه می‌یابد. کاربران باید با مشاهده آثار هنری و صحنه‌های فیلم، سعی کنند آن‌ها را به‌صورت دستورات متنی در ذهن خود فرمول‌بندی کنند تا درک عمیق‌تری از نحوه کار این عناصر به دست آورند. این دانش نه تنها برای خلق هنر هوش مصنوعی ضروری است، بلکه درک کلی کاربر از هنر و طراحی را نیز بهبود می‌بخشد و امکان تبدیل دقیق دیدگاه هنری به خروجی دیجیتال را فراهم می‌کند.

۹. پارامترها

پارامترها، دستورات خاصی هستند که در نرم‌افزارهای هنر هوش مصنوعی (به‌ویژه Midjourney) استفاده می‌شوند و به کاربر اجازه می‌دهند تا جنبه‌های ساختاری، فنی و رفتاری فرآیند تولید تصویر را کنترل کند. این پارامترها فراتر از توصیف صرف محتوای تصویر هستند. یکی از مهم‌ترین آن‌ها دستور منفی (Negative Prompting) است که با استفاده از پارامتری مانند --no humans به هوش مصنوعی می‌گوید که عناصر خاصی را از تصویر حذف کند. این برای حذف سوژه‌ها، رنگ‌ها یا سبک‌های ناخواسته مفید است. پارامترهای اندازه و ابعاد مانند --ar (aspect ratio) به کاربر امکان می‌دهند تا نسبت ابعاد دلخواه (مانند ۱۶:۹) را تعریف کند، یا با استفاده از --w (عرض) و --h (ارتفاع)، ابعاد پیکسل را مستقیماً تعیین نماید. توصیه می‌شود که این مقادیر بین ۲۵۶ تا ۲۰۳۴ پیکسل و مضربی از ۶۴ باشند. شماره‌های Seed که با پارامتر --seed {number} (عددی مثبت بین ۰ تا ۴۲۹۴۹۶۷۲۹۵) مشخص می‌شوند، برای بازتولید هنر با استفاده از همان تصادفی‌سازی که برای تولید تصویر اصلی استفاده شده است، به کار می‌روند. این به کاربران کمک می‌کند تا با یک دستور متنی مشابه، یک خروجی مشابه قبلی را تکرار کنند، اگرچه نویسنده تأکید می‌کند که این تکنیک در Midjourney کاملاً بی‌نقص نیست. برای کشف Seed یک تصویر موجود در Midjourney، می‌توان از ایموجی پاکت نامه (✉) استفاده کرد تا متادیتای مربوطه به پیام‌های مستقیم دیسکورد ارسال شود. پارامتر Chaos که با --chaos {num} (مقدار ۰ تا ۱۰۰) تنظیم می‌شود، میزان تصادفی بودن و غیرمعمول بودن نتایج تولید شده را کنترل می‌کند و مقادیر بالاتر به هوش مصنوعی آزادی عمل خلاقانه‌تری می‌دهد. پارامترهایی مانند Quality Values برای تنظیم کیفیت خروجی و منابع مصرفی، و پارامتر Video برای ذخیره فرآیند تولید تصویر به‌صورت متحرک نیز وجود دارند. این پارامترها ابزارهای پیشرفته‌ای هستند که با تسلط بر آن‌ها، می‌توان خروجی‌های هوش مصنوعی را به سطحی فراتر از یک توصیف ساده ارتقا داد.

۱۰. ترکیب مجدد سبک‌های هنری محبوب

این فصل به اهمیت ترکیب سبک‌های هنری مشهور در دستورات متنی می‌پردازد تا یک دیدگاه هنری منحصر به فرد ایجاد شود و درک کاربر از تاریخ هنر عمیق‌تر گردد. افزودن نام یک سبک هنری یا یک هنرمند مشهور به دستور متنی، به‌طور چشمگیری بر خروجی تأثیر می‌گذارد. سبک‌های مورد بررسی در این فصل شامل موارد زیر هستند: انتزاعی (Abstract) که هدف آن برانگیختن احساسات از طریق ترکیب‌بندی اشکال و رنگ‌ها به‌جای نمایش اشیا قابل لمس است. هنرمندانی مانند روتکو و موندریان از پیشگامان این سبک هستند و دستورات می‌توانند بر مفاهیمی مانند «انرژی» یا «هرج و مرج جهان مدرن» تمرکز کنند. پاپ آرت (Pop Art) که تصاویر روزمره مانند تبلیغات یا کتاب‌های کمیک را به روشی هنری‌تر بازسازی می‌کند و هنرمندانی مانند اندی وارهول و روی لیختن‌اشتاین از نمونه‌های برجسته آن هستند. دستورات این سبک اغلب بر موضوعاتی مانند «ربات‌ها» یا «تکینگی هوش مصنوعی» با قالب هنری پاپ تمرکز دارند. سورئالیسم (Surrealism) که سعی در بیان دیدگاه‌های رؤیاگونه با ترکیب عناصر واقعی و غیرواقعی دارد و سالوادور دالی و ماگریت از مشهورترین نمایندگان آن هستند. دستورات در این سبک بر مناظری متمرکز هستند که قوانین فیزیک در آن‌ها رعایت نمی‌شود یا سازه‌ها از ابرها ساخته شده‌اند. هنر معاصر (Contemporary Art) که بیشتر بر ایده و مفهوم پشت اثر هنری تمرکز دارد تا فرم و زیبایی‌شناسی آن و هنرمندانی مانند جف کونز و دیمین هرست در این دسته قرار می‌گیرند. در این سبک، افزودن عبارت «هنر معاصر» به دستور تقریباً ضروری است و سوژه‌ها می‌توانند «تقاطع فناوری و طبیعت» یا «دنیایی که ماشین‌ها در آن هنر می‌آفرینند» باشند. در نهایت، هنر محلی (Folk Art) که ریشه در سنت و فرهنگ یک منطقه خاص دارد و اغلب کیفیتی ساده و بومی را منعکس می‌کند. این فصل با ارائه مثال‌هایی نشان می‌دهد که چگونه می‌توان با استفاده از زبان و ارجاع به دوره‌های هنری مختلف، سبک بصری یک تصویر را به‌طور هدفمند کنترل کرد.

۱۱. دستورات متنی مفید

این فصل به ابزارهایی می‌پردازد که به کاربران کمک می‌کنند تا کیفیت دستورات متنی خود را به سطوح بالاتری ارتقا دهند. در حالی که توسعه مهارت‌های نگارش دستور متنی با تمرین عملی و کسب تخصص در موضوع به دست می‌آید، استفاده از نرم‌افزارهای خارجی هوش مصنوعی می‌تواند به فرآیند طوفان فکری و تولید سریع دستورات پیچیده کمک کند. یکی از ابزارهای برجسته مورد توصیه در این فصل، Character.ai است. این پلتفرم یک رابط چت‌بات رایگان را فراهم می‌کند که به کاربران امکان می‌دهد با شخصیت‌های هوش مصنوعی مختلف، از جمله یک چت‌بات ویژه به نام “Midjourney Prompts”، گفتگو کنند. این ربات هوش مصنوعی برای کمک به کاربران در ساخت دستورات متنی برای هنر هوش مصنوعی طراحی شده است. کاربران می‌توانند دیدگاه خلاقانه خود را به ربات توضیح دهند، و چت‌بات بر اساس توصیفات کاربر و الگوهای دستورات محبوب، یک دستور متنی هنری دقیق و بهینه شده را تولید می‌کند. استفاده از ابزارهایی مانند Character.ai به کسانی که در یافتن کلمات مناسب برای توصیف سبک، نورپردازی، کادربندی یا جزئیات فنی مشکل دارند، کمک می‌کند تا به سرعت از موانع خلاقیت عبور کنند. این یک راه کارآمد برای دستیابی به دستورات متنی طولانی‌تر و غنی‌تر است که دستیابی به نتایج بهتر در خروجی نهایی هوش مصنوعی را تضمین می‌کند. این فصل تأکید می‌کند که استفاده از ابزارهای کمکی خارجی نه تنها یک مزیت، بلکه یک تاکتیک هوشمندانه برای سرعت بخشیدن به فرآیند تولید و حفظ کیفیت بالای آثار هنری تولید شده توسط هوش مصنوعی است.

۱۲. حقوق تصویر

فصل حقوق تصویر به‌عنوان یک مقدمه حیاتی برای ملاحظات اخلاقی و قانونی مرتبط با هنر مولد هوش مصنوعی عمل می‌کند. در حالی که فناوری هوش مصنوعی به‌سرعت پیشرفت کرده است، چارچوب قانونی مربوط به مالکیت و استفاده از تصاویر تولید شده توسط هوش مصنوعی هنوز در حال توسعه و مبهم است. این ابهام به این دلیل است که نرم‌افزارهای هوش مصنوعی بر روی مجموعه‌ای عظیم از داده‌ها و آثار هنری موجود آموزش دیده‌اند که توسط انسان خلق شده‌اند و تعیین اینکه حقوق مالکیت فکری یک اثر تولید شده توسط ماشین به چه کسی تعلق دارد، یک چالش بزرگ است. این فصل هشدار می‌دهد که صنعت حقوقی و نهادهای نظارتی در تلاش برای به‌روزرسانی قوانین خود برای همگام شدن با قابلیت‌های جدید این فناوری هستند و در نتیجه، یک «منطقه خاکستری» حقوقی برای سال‌های زیادی وجود خواهد داشت. مسئله حقوق تصویر با موضوعاتی مانند کپی‌رایت آثار اصلی که به‌عنوان داده آموزشی استفاده شده‌اند، ارتباط تنگاتنگی دارد و شرکت‌های فعال در این فضا باید با در نظر گرفتن ریسک‌های قانونی، توسعه فناوری خود را با احترام به حقوق مالکیت فکری هنرمندان موجود متوازن کنند. این فصل زمینه را برای بحث عمیق‌تر در فصل بعد فراهم می‌کند، جایی که مسائل اخلاقی مربوط به حریم خصوصی و اصالت به تفصیل مورد بررسی قرار می‌گیرند و اهمیت درک مسئولیت‌های قانونی و اخلاقی توسط کاربران پررنگ می‌شود.

۱۳. اخلاق، حریم خصوصی و اصالت

این فصل به سه موضوع چالش‌برانگیز در هنر هوش مصنوعی می‌پردازد که مانع اصلی در پذیرش گسترده سازمانی نیز محسوب می‌شوند. حریم خصوصی (Privacy) یکی از نگرانی‌ها است، به‌ویژه در پلتفرم‌های جامعه-محور مانند Midjourney. از آنجایی که هر تصویری که در چت‌روم‌های عمومی دیسکورد Midjourney تولید می‌شود برای همه کاربران آن چت‌روم قابل مشاهده است، کاربران باید در وارد کردن هرگونه اطلاعات یا تصاویر حساس شرکتی یا شخصی احتیاط کنند، زیرا نتایج به‌طور پیش‌فرض در معرض دید عموم قرار می‌گیرند. مسئله اصلی دیگر اصالت (Originality) است. مدل‌های هوش مصنوعی بر روی مجموعه داده‌های عظیمی از هنر تولید شده توسط انسان آموزش دیده‌اند، و این می‌تواند از نظر اخلاقی چالش‌برانگیز باشد، به‌ویژه اگر مدل، سبک یک هنرمند خاص را بدون اجازه تکرار کند و حتی گاهی امضای هنرمند اصلی را در گوشه تصویر بازتولید کند. این امر سؤالاتی را در مورد تعریف تقلید در مقابل روند طبیعی هنری ایجاد می‌کند. در پاسخ به این چالش‌ها، شرکت‌هایی مانند Originality.ai و Detect GPT در حال ایجاد ابزارهایی برای تشخیص محتوای تولید شده توسط هوش مصنوعی هستند، هرچند که فناوری تشخیص تصویر هنوز به اندازه تشخیص متن تولید شده توسط GPT-3 پیشرفته نیست. همچنین، شرکت‌هایی مانند OpenAI در حال توسعه واترمارک‌های رمزنگاری شده برای تصاویر تولید شده توسط هوش مصنوعی هستند تا مالکیت و منشأ آن‌ها مشخص شود. این تلاش‌ها برای حفظ حقوق مالکیت فکری و جلوگیری از سوءاستفاده (مانند تقلب در تکالیف) انجام می‌شود. نویسنده نتیجه می‌گیرد که صنعت هوش مصنوعی باید خط ظریفی بین احترام به حقوق هنرمندان موجود و قابلیت‌های مدل‌های هوش مصنوعی برای تولید آثار منحصر به فرد را طی کند. با توجه به اینکه قوانین داده و مقررات به‌آهستگی این حوزه جدید را پوشش می‌دهند، یک منطقه خاکستری حقوقی و اخلاقی برای سال‌ها ادامه خواهد داشت و شرکت‌ها باید ریسک‌های قانونی را در برابر مزایای پیشرفت فناوری بسنجند و در عین حال سیاست‌هایی را برای حفاظت از داده‌های شخصی و آثار هنری افراد اتخاذ کنند.

۱۴. نتیجه‌گیری

با گسترش پذیرش و توسعه فناوری هوش مصنوعی، مفاهیم سنتی بیان هنری به چالش کشیده شده و تعریف “هنرمند” در حال بازنگری است. هوش مصنوعی مولد به هر کسی این امکان را می‌دهد تا بدون نیاز به بودجه یا منابع انسانی حرفه‌ای، خروجی طراحی خود را به‌طور قابل توجهی افزایش دهد. ابزارهای مبتنی بر هوش مصنوعی طوری طراحی شده‌اند که بخش‌های خسته‌کننده و تکراری تولید را خودکار کنند و زمان بیشتری را برای فرآیندهای خلاقانه‌ای مانند طوفان فکری و توسعه مفاهیم آزاد سازند. نویسنده تأکید می‌کند که تولید محتوای هوش مصنوعی یک مهارت ضروری برای همه سازندگان و خالقان محتوا است. آینده‌ای که نویسنده پیش‌بینی می‌کند، در چیزی است که آن را “میانه‌ی گمشده” (The Missing Middle) می‌نامد؛ این جایی است که همکاری انسان و ماشین به یک هنجار تبدیل می‌شود و از بهترین عملکرد هر دو طرف استفاده می‌شود تا نتایج نهایی به دست آید. به‌عبارت دیگر، هوش مصنوعی به‌عنوان یک همکار (Co-Pilot) برای طراح یا نویسنده عمل می‌کند، نه به‌عنوان یک جایگزین کامل. تسلط بر نحوه استفاده از دستورات متنی، پارامترها و درک ملاحظات فنی و اخلاقی، به کاربران کمک می‌کند تا در این فضای جدید پیشرو باشند و پتانسیل خود را در زمینه تولید محتوای خلاقانه به حداکثر برسانند. این کتاب، با ارائه درک جامعی از اصول، تکنیک‌ها و ابزارهای اصلی، خواننده را برای این آینده آماده می‌کند.

۱۵. منابع پیشنهادی

این فصل نهایی، منابعی را برای کمک به خواننده در ادامه مسیر یادگیری و توسعه مهارت‌های خود در زمینه هنر هوش مصنوعی و یادگیری ماشین فهرست می‌کند. با توجه به سرعت بالای توسعه نرم‌افزارها، ضروری است که کاربران به‌طور مداوم دانش خود را به‌روز نگه دارند. منابع پیشنهادی شامل سایر کتاب‌ها و دوره‌های آموزشی ارائه شده توسط خود نویسنده، اولیور تئوبالد، هستند که موضوعاتی مانند یادگیری ماشین و هنر هوش مصنوعی را در قالب‌های مختلف، از جمله دوره‌های ویدیویی Skillshare، پوشش می‌دهند. این منابع به کاربران اجازه می‌دهند تا دانش فنی عمیق‌تری در مورد مفاهیم زیربنایی هوش مصنوعی کسب کنند. علاوه بر این، مستندات رسمی نرم‌افزارهای هنر هوش مصنوعی، به‌ویژه مستندات Midjourney، به‌عنوان یک منبع حیاتی برای یادگیری دقیق‌تر پارامترها و دستورات پیشرفته‌ای که در فصول پیشین معرفی شدند، توصیه می‌شود. این مستندات معمولاً به‌طور مرتب به‌روزرسانی می‌شوند تا آخرین ویژگی‌ها و قابلیت‌های مدل را منعکس کنند. تأکید این فصل بر این است که یادگیری هنر هوش مصنوعی یک فرآیند مستمر است که نیازمند درگیر شدن فعال با ابزارها و منابع رسمی توسعه‌دهندگان است.

دانلود کتاب کامل:

Generative AI Art_ A Beginner’s Guide to 10x Your Output — Oliver Theobald — 2022 — Scatterplot Press دریافت