یک کتاب کاربردی و ساده برای افرادی که تازه با ابزارهای هوش مصنوعی، آشنا شده اند.
نام انگلیسی کتاب: Generative AI Art: A Beginner’s Guide to 10x Your Output with Killer Text Prompts
ترجمه فارسی نام کتاب: راهنمای مبتدی برای ۱۰ برابر کردن خروجی شما با دستورات متنی خارقالعاده
نام انتشارات: Scatterplot Press
تعداد صفحات: 142
نمره در آمازون: 4.2 از 5
نمره در گودریدز: 3.93 از 5
1. مقدمه
هوش مصنوعی (AI) در مسیر متحول کردن کامل فضای خلاقیت است و این تحول شامل حوزههایی مانند نویسندگی خلاق، هنر مولد، رندر سهبعدی، ویدئو، گفتار و موسیقی میشود. خروجیهای نرمافزارهای مبتنی بر دستور متنی (Prompt-based software) هوش مصنوعی در حال حاضر بسیار چشمگیر هستند و با سرعتی باورنکردنی (در مقیاس ماه، نه سال) در حال بهبود کیفیتاند. یک روند سایهای مهم که بسیاری نادیده میگیرند، تحول نرمافزارهای سنتی مانند فتوشاپ یا مایکروسافت آفیس است؛ نسخههای آینده این برنامهها بهجای تکیه بر اقدامات تکراری مانند کلیک و درگ برای جابجایی پیکسلها، بیشتر به دستورات متنی و صوتی متکی خواهند بود تا به نرمافزار بگویند دقیقاً چه کاری انجام دهد. این انتقال قبلاً با اضافه شدن ابزارهای متن به تصویر به پلتفرمهایی مانند Figma، Canva و مجموعه Adobe آغاز شده است. این پیشرفتها، صنعت خلاقیت را زیر و رو کرده و بخش کمدرآمد بازار را بهسرعت از بین میبرند، بهطوری که سایتهای عمومی عکس استوک مانند Shutterstock در معرض خطر کامل منسوخ شدن قرار دارند، اگرچه پلتفرمهای متنوعتر برونسپاری مانند Fiverr و Upwork هنوز فضای مانور دارند. با این حال، پذیرش کامل این فناوری، بهویژه در میان شرکتها، به دلیل خطرات و نگرانیهای اخلاقی زمانبر خواهد بود که در فصول آتی بیشتر به آن پرداخته میشود. این کتاب بهعنوان راهنمایی برای ورود به این عرصه جدید، اصول اولیه هنر مولد هوش مصنوعی، تکنیکهای رایج مانند ساخت دستور متنی و کادربندی را پوشش میدهد. نکته حائز اهمیت این است که خلق هنر هوش مصنوعی نیازی به دانش تخصصی برنامهنویسی یا حتی استعداد طراحی ندارد؛ بلکه ساختن یک دستور متنی خوب به تجربه عملی، آگاهی از تکنیکهای ویژه و کمی تخصص در حوزه موضوعی مورد نظر نیاز دارد.
ایده اصلی
ایده اصلی کتاب بر این مبنا استوار است که هوش مصنوعی مولد، بهویژه ابزارهای تبدیل متن به تصویر مانند Midjourney و DALL-E، یک انقلاب در دسترس برای همه در دنیای هنر ایجاد کرده است. کتاب با آموزش درک پایهای از نحوه عملکرد این سیستمها (یادگیری تحت نظارت و NLP مبتنی بر GPT-3) و سپس تمرکز بر “هنر دستور متنی” (Prompt Artistry)، نشان میدهد که چگونه کاربران میتوانند با استفاده از زبان طبیعی، دستورات دقیق و تعدیلکنندههای سبک، خروجیهای هنری را ۱۰ برابر بهبود بخشند. این راهنما نه تنها به جنبههای فنی ساخت تصاویر (مانند پارامترها، کادربندی و ماسک کردن) میپردازد، بلکه خواننده را از طریق ملاحظات حیاتی اخلاقی و حقوقی پیرامون اصالت اثر و حریم خصوصی راهنمایی میکند. هدف نهایی، توانمندسازی هر کسی است که میخواهد از هوش مصنوعی بهعنوان یک همکار خلاق برای بیان دید هنری خود استفاده کند و در عین حال درک عمیقی از اینکه صنعت به سمت همکاری انسان و ماشین در “میانهی گمشده” (The Missing Middle) در حرکت است، به دست آورد.
نکات کلیدی
- اهمیت دستور متنی (Prompt): دستور متنی خوب، کلید موفقیت در هنر هوش مصنوعی است. برای دستیابی به خروجیهای هدفمند، باید از زبان طبیعی، عبارات خاص و تعدیلکنندههای سبکی (مانند “به سبک پوستر آرت دکو”) استفاده کرد.
 - پایه فنی: بیشتر نرمافزارهای هوش مصنوعی بر مدل GPT-3 و تکنیک یادگیری تحت نظارت متکی هستند، به این معنی که خروجیهای تولید شده بر اساس میلیونها تصویر برچسبگذاری شدهای هستند که مدل روی آنها آموزش دیده است.
 - تخصص موضوعی: برای تولید تصاویر دقیق (مثلاً یک شوالیه قرون وسطایی خاص یا یک عکس با نورپردازی ویژه)، داشتن درکی از اصطلاحات تخصصی یا جزئیات حوزه موضوعی ضروری است.
 - استفاده از پارامترها: پارامترها (مانند 
--arبرای نسبت ابعاد،--noبرای حذف عناصر، وSeedبرای تکرار تصادفیسازی) ابزارهایی حیاتی برای کنترل خروجی فراتر از توصیف صرف تصویر هستند. - اخلاق و قانون: حوزه هنر هوش مصنوعی با ابهامات حقوقی قابل توجهی در مورد مالکیت و اصالت روبرو است؛ کاربران باید نسبت به حریم خصوصی (مانند عمومی بودن تصاویر در Midjourney) و استفاده از سبکهای هنرمندان دیگر آگاه باشند.
 
۲. آشنایی مقدماتی با هوش مصنوعی
انقلابی در دنیای هنر در حال وقوع است که نرمافزارهایی مانند DALL-E، Midjourney، Stable Diffusion و Craiyon به کاربران این امکان را میدهند تا بدون نیاز به دانش کدنویسی یا تجربه هنری، در عرض چند ثانیه تصاویر را با استفاده از توضیحات متنی ساده تولید کنند. برای درک این پدیده، آشنایی با اصول اولیه هوش مصنوعی (AI) ضروری است. هوش مصنوعی در هسته خود، ماشینهایی را قادر میسازد که یاد بگیرند، مسائل را حل کنند و پاسخهای مناسب ارائه دهند. این امر از طریق توانایی تشخیص الگوها، تصمیمگیری و تعامل مستقل با انسان حاصل میشود. زیرمجموعهای از هوش مصنوعی که برای تولید هنر استفاده میشود، ترکیبی از پردازش زبان طبیعی (NLP)، بینایی کامپیوتر (Computer Vision) و یادگیری ماشین (Machine Learning) است. یادگیری ماشین بهعنوان ستون فقرات هوش مصنوعی، به کامپیوترها توانایی یادگیری بدون برنامهنویسی صریح را میدهد. تصمیمگیری در این مدلها با رمزگشایی روابط و الگوها از دادههای ورودی صورت میگیرد و خروجی مدل توسط محتوای دادههای ورودی تعیین میشود، نه قوانین از پیش تعیین شده توسط برنامهنویس. یادگیری تحت نظارت (Supervised Learning)، که مرتبطترین تکنیک برای هنر هوش مصنوعی است، شامل استخراج الگوها از مثالهای شناخته شده (زوجهای ورودی-خروجی) است تا یک نتیجه تکرارپذیر مهندسی شود. در مورد هنر هوش مصنوعی، الگوریتم به میلیونها تصویری که با توصیفات متنی برچسبگذاری شدهاند (مثلاً ۶۵۰ میلیون تصویر برای DALL-E) نگاه میکند تا ارتباط بین متن (ورودی) و تصویر (خروجی) را درک کند و بیاموزد که یک شیء خاص بر اساس مثالها چگونه به نظر میرسد. علاوه بر این، NLP نوآوری کلیدی دیگری است که به کامپیوترها کمک میکند تا گفتههای انسان را درک کنند و معنای پشت متن و گفتار را تشخیص دهند. پیشرفتهای اخیر در هنر هوش مصنوعی عمدتاً به لطف مدل پیشرفته زبان GPT-3 (Generative Pre-trained Transformer) توسعه یافته توسط OpenAI به دست آمده است. GPT-3 با آموزش بر روی ۵۷۰ گیگابایت اطلاعات متنی، توانایی تولید هنر، موسیقی و متن را از دستورات متنی به دست آورده است. هنر مولد هوش مصنوعی (Generative AI Art) از این قابلیتها برای تولید تصاویر منحصربهفرد و پیچیده با حداقل ورودی از کاربر استفاده میکند و به هنرمندان اجازه میدهد تا خلاقیت خود را با قدرت هوش مصنوعی ترکیب کنند تا مرزهای هنری و فنی را جابجا کنند.
۳. هنر دستور متنی
برای خلق هنر مولد هوش مصنوعی، باید یک دستور متنی (Text Prompt) ارائه داد که در واقع دستورالعملی برای هوش مصنوعی در مورد آنچه میخواهید خلق شود، میباشد. هیچ روش یا کد ثابتی برای نوشتن یک دستور متنی وجود ندارد؛ یک دستور میتواند فهرستی از کلمات جدا شده با کاما، یک پارهجمله، یا یک جمله کامل باشد. نکته مهم این است که از زبان طبیعی (مانند زبان محاورهای روزمره) استفاده شود، زیرا هوش مصنوعی بر اساس این زبان آموزش دیده است، و دستور زبان صحیح ضروری نیست. در حالت کلی، هرچه دستور متنی شما خاصتر و جزئیتر باشد، خروجی نهایی شما مشخصتر خواهد بود و به تکرارهای کمتری برای رسیدن به نتیجه مطلوب نیاز دارید. اینجاست که تعدیلکنندهها (Modifiers) وارد عمل میشوند. در حالی که دستور اصلی اشیا و روابط آنها را توصیف میکند، یک تعدیلکننده دستورالعملهای اضافی را در مورد سبک طراحی مورد نظر اضافه میکند (مثلاً “به سبک یک پوستر آرت دکو دهه ۱۹۲۰”). استفاده از کلمات وصفی یا اصطلاحات یک دوره هنری مانند “آرت دکو” بهطور خودکار ویژگیهای تعریف شدهای مانند رنگهای غنی، تزیینات مجلل، اشکال هندسی و حتی جنس مواد را به تصویر اضافه میکند. همچنین میتوانید جزئیات بیشتری مانند مکان (مثلاً وال استریت، نیویورک)، آب و هوا، زمان روز، یا پیشزمینه سیاسی/اجتماعی را اضافه کنید تا تصویر هدفمندتری ایجاد شود. برای عکاسی تولید شده توسط هوش مصنوعی، میتوانید از اصطلاحات تخصصی حوزه (Domain-specific terminology) استفاده کنید تا جزئیاتی مانند سرعت شاتر، انتخاب لنز، نورپردازی و کادربندی را تعریف کنید، یا همه این ویژگیها را در یک عبارت سبکی مانند “عکس اکشن” یا “کاور نشنال جئوگرافیک” خلاصه کنید. توسعه توانایی توصیف هنر بصری با کلمات یک مهارت کلیدی است که با گذشت زمان بهبود مییابد. علاوه بر این، داشتن تخصص در موضوع برای اطمینان از صحت جزئیات مهم است؛ مثلاً، برای تصویرسازی یک شوالیه قرون وسطایی خاص، باید تفاوتهای مد، طبقه اجتماعی و تسلیحات آن دوره را بدانید. در مقابل دستورات دقیق، میتوان از دستورات مبهم نیز استفاده کرد تا به هوش مصنوعی اجازه دهید ابتکار عمل خلاقانه را در دست بگیرد، که این کار در مواردی که مرجع موجود کمیاب است (مانند یک استادیوم در متاورس) مفید است. نکته نهایی این است که نتایج دستور متنی یکسان در نرمافزارهای مختلف، متفاوت خواهد بود؛ بهعنوان مثال Midjourney به سبک هنری و انتزاعی متمایل است، در حالی که DALL-E و Craiyon در انتهای محافظهکارانه و تحتاللفظی طیف طراحی قرار دارند.
۴. نرمافزار هنر هوش مصنوعی
بازار نرمافزارهای هنر هوش مصنوعی به سرعت در حال رشد است و پلتفرمهای متعددی توانایی تبدیل متن به تصویر را در اختیار کاربران قرار میدهند. در میان این ابزارها، DALL-E و Midjourney بهعنوان پیشگامان شناخته میشوند که هر کدام رویکرد متمایزی به تولید هنری دارند. DALL-E که توسط OpenAI توسعه یافته است، یک پلتفرم قدرتمند مبتنی بر وب است که بهخاطر تواناییاش در درک دستورات متنی پیچیده و تولید تصاویر هم انتزاعی و هم واقعی شناخته میشود. DALL-E دارای یک رابط کاربری بصری و آسان است و بهویژه ابزار آپلود تصویر آن برای دستکاری عکسهای موجود و افزودن عناصر جدید بسیار عالی است. کاربران میتوانند به راحتی بخشهایی از یک تصویر را با استفاده از ابزار ویرایش و ماسک کردن تغییر دهند و نتایج بسیار باکیفیتی تولید کنند. در مقابل، Midjourney نسبت به DALL-E فضایی متفاوتتر و به نوعی آشفتهتر دارد و بیشتر به سمت یک سبک هنری خاص متمایل است که اغلب تصاویری با حال و هوای فانتزی، سورئال یا سینمایی تولید میکند. Midjourney تا حد زیادی بهعنوان یک برنامه مستقل وب منتشر نشده است و تعامل اصلی کاربران با آن از طریق پلتفرم Discord انجام میشود. این تفاوت در رابط کاربری و شیوه تعامل باعث میشود Midjourney حسی از یک جامعه باز و اشتراکی را ایجاد کند، اگرچه این امر ملاحظات حریم خصوصی خاص خود را نیز به همراه دارد. انتخاب نرمافزار به شدت به نتیجه هنری مورد نظر کاربر وابسته است: DALL-E اغلب برای نتایج تحتاللفظی و ویرایشهای دقیق مبتنی بر تصویر اصلی بهتر عمل میکند، در حالی که Midjourney اغلب برای خلق آثاری با سبک بصری قوی و خلاقانه ارجحیت دارد. Craiyon و Stable Diffusion نیز گزینههای دیگری هستند که هر کدام مجموعه قابلیتها و سبکهای خروجی خاص خود را دارند و انتخاب نهایی به ترجیحات و اهداف هنری فرد بستگی دارد.
۵. نمایش عملی Craiyon
Craiyon، که قبلاً با نام DALL-E mini شناخته میشد، در مقایسه با نرمافزارهایی مانند Midjourney، بیشتر در انتهای محافظهکارانه و تحتاللفظی طیف طراحی قرار میگیرد. این نرمافزار به دلیل سادگی و دسترسی رایگان، اغلب بهعنوان نقطه شروعی برای مبتدیان شناخته میشود. Craiyon تلاش میکند تا دستور متنی را تا حد امکان بهصورت مستقیم و تحتاللفظی تفسیر کند، که این امر منجر به تولید تصاویری میشود که ممکن است فاقد سبک هنری خاص و قوی ابزارهایی مانند Midjourney باشند. در واقع، این سادگی و تمایل به تفسیر مستقیم، آن را به ابزاری عالی برای آزمایشهای اولیه و درک نحوه عملکرد دستورات متنی تبدیل میکند، بدون اینکه کاربر را با پیچیدگیهای تنظیمات یا سبکهای بصری منحصر به فرد مدلهای پیشرفتهتر درگیر کند. نتایج تولید شده در Craiyon اغلب ۹ تصویر در یک شبکه هستند که به کاربر این امکان را میدهد تا از بین چندین تفسیر بصری از دستور خود یکی را انتخاب کند. اگرچه کیفیت رندرینگ و جزئیات تصاویر Craiyon ممکن است بهاندازه DALL-E 2 یا Midjourney نباشد، اما نقش مهمی در دموکراتیزه کردن هنر هوش مصنوعی ایفا میکند، زیرا هر کسی میتواند بدون نیاز به اعتبارنامه یا دانش فنی زیاد، اولین آثار هنری خود را بسازد. این فصل عملی به کاربران میآموزد که چگونه با دستورات ساده در Craiyon شروع به کار کنند و تفاوتهایی که تفسیر تحتاللفظی آن با سایر مدلهای هنری هوش مصنوعی ایجاد میکند را درک کنند. این یک گام اساسی برای درک این نکته است که نرمافزارهای مختلف هوش مصنوعی نتایج متفاوتی را تولید میکنند و هر کدام دارای نقاط قوت و ضعف خاصی هستند که باید بر اساس سبک مورد نظر در دستور متنی لحاظ شوند.
۶. نمایش عملی Midjourney
Midjourney یک ابزار تولید هنر هوش مصنوعی است که تمایل زیادی به سبکهای هنری، فانتزی و بصری قوی دارد و اغلب خروجیهایی با کیفیت سینمایی یا هنرهای زیبا تولید میکند. کار با Midjourney عمدتاً از طریق محیط Discord انجام میشود و کاربران دستورات خود را در چترومها (عمومی یا خصوصی) وارد میکنند. این فصل به جزئیات تعامل با Midjourney میپردازد، بهویژه در مورد فرآیند تولید تصویر و مدیریت خروجیها. یک تکنیک کاربردی و کلیدی در Midjourney استفاده از ایموجی پاکت نامه (✉) است. با افزودن این ایموجی بهعنوان واکنش به تصویر تولید شده، میتوان تصویر و تمامی دادههای مرتبط (از جمله شماره کار و شماره Seed) را به پیامهای مستقیم خود در Discord ارسال کرد. این قابلیت به کاربر اجازه میدهد تا متادیتای مهم برای بازتولید یا ادامه کار روی یک اثر خاص را حفظ کند. همچنین، این دادهها برای استفاده از فرمان /show حیاتی هستند؛ با وارد کردن شماره کار، کاربران میتوانند یک کار قدیمی را در هر کانال رباتی “احیا” کنند، حتی اگر دسترسی به دستور متنی اصلی را از دست داده باشند. این ویژگیها کارایی Midjourney را برای پروژههای طولانیمدت و نیاز به تکرارپذیری بهبود میبخشند. ماهیت Midjourney بهعنوان یک جامعه باز که تصاویر در چترومهای عمومی قابل مشاهده هستند، یک جنبه مهم است که در فصل ۱۳ (اخلاق و حریم خصوصی) به آن پرداخته شده است. در مجموع، نمایش عملی Midjourney بر استفاده از محیط Discord برای خلق آثار هنری با سبک بصری قوی، و همچنین تکنیکهای ضروری برای حفظ، بازیابی و تکرارپذیری آثار تولید شده با استفاده از متادیتای تولید شده توسط هوش مصنوعی تأکید دارد.
۷. دستورات تصویر و پوشاندن (ماسک کردن)
فصل دستورات تصویر و پوشاندن (Masking) بر تکنیکهای پیشرفته ویرایش و اصلاح تصاویر تولید شده توسط هوش مصنوعی متمرکز است که عمدتاً در ابزارهای دارای قابلیت ویرایش مانند DALL-E 2 Editor یافت میشوند. ماسک کردن شامل پاک کردن یا محو کردن بخشی از یک تصویر موجود است تا کاربر بتواند یک دستور متنی جدید وارد کند و هوش مصنوعی آن ناحیه پاک شده را با محتوای جدید پر کند. این تکنیک، که به عنوان inpainting شناخته میشود، امکان دستکاری و اصلاح هدفمند تصاویر را فراهم میآورد. یک توصیه مهم در این فصل از راهنمای ویرایشگر DALL-E ارائه شده است: هنگام ویرایش، ابتدا بر روی سوژه اصلی یا شخصیت تمرکز کنید و ویرایش پسزمینه را به انتها موکول کنید. این روش به هوش مصنوعی کمک میکند تا ریختشناسی بدن (body morphology) سوژه انسانی را به درستی تنظیم کند که معمولاً بخش دشوارتر است، قبل از اینکه جزئیات کماهمیتتر پسزمینه اضافه شود. علاوه بر این، این فصل به استفاده از تصاویر آپلود شده بهعنوان نوعی دستور متنی نیز میپردازد، بهطوری که کاربر میتواند عکسهای موجود را آپلود کرده و از هوش مصنوعی بخواهد تا عناصر جدیدی را اضافه یا سبک آن را تغییر دهد. با این حال، نویسنده هشدار میدهد که حتی هنگام ویرایش یک ناحیه کوچک با ماسک، هوش مصنوعی ممکن است عناصر دیگر پسزمینه را نیز تغییر دهد. بنابراین، تأکید میشود که دستور متنی جدید باید به کل تصویر (نه فقط ناحیه پاک شده) مربوط باشد تا خروجی نهایی یکپارچگی بصری خود را حفظ کند و بهطور منطقی با محیط موجود ترکیب شود. این تکنیکهای ویرایش هوش مصنوعی در نهایت به کاربران این امکان را میدهند تا تصاویر را به دیدگاه خلاقانه خود نزدیکتر کنند.
۸. کادربندی و نورپردازی
کادربندی (Framing) و نورپردازی (Lighting) از عناصر حیاتی در هنر بصری هستند و این فصل بر نحوه استفاده مؤثر از اصطلاحات مربوط به این دو حوزه در دستورات متنی برای کنترل خروجی هوش مصنوعی تمرکز دارد. برای عکاسی تولید شده توسط هوش مصنوعی، بهجای توصیف کلی، میتوان از اصطلاحات تخصصی عکاسی و فیلمسازی برای تعریف دقیق کادربندی و نورپردازی استفاده کرد. بهعنوان مثال، میتوان جزئیاتی مانند «زاویه بالا (High Angle)»، «نمای نزدیک (Close-Up)»، «نورپردازی سهنقطهای (Three-Point Lighting)»، «نور ریم (Rim Light)» یا حتی «سرعت شاتر» و «انتخاب لنز» را در دستور متنی گنجاند. این اصطلاحات فنی به هوش مصنوعی کمک میکنند تا یک محیط بسیار دقیق و جوی را رندر کند. اگر دسترسی به اصطلاحات فنی محدود است، میتوان با دستهبندی ویژگیها در یک سبک عکاسی شناخته شده، نتیجه مشابهی به دست آورد. مثلاً استفاده از عباراتی مانند «عکس اکشن»، «جلد نشنال جئوگرافیک»، «عکاسی خیابانی» یا «فتوشوت مجله ووگ» تمام ویژگیهای کادربندی، نورپردازی و کیفیت مرتبط با آن سبک خاص را به هوش مصنوعی منتقل میکند. نویسنده تأکید میکند که توانایی بیان و توصیف هنر بصری با کلمات یک مهارت ارزشمند است که با تمرین توسعه مییابد. کاربران باید با مشاهده آثار هنری و صحنههای فیلم، سعی کنند آنها را بهصورت دستورات متنی در ذهن خود فرمولبندی کنند تا درک عمیقتری از نحوه کار این عناصر به دست آورند. این دانش نه تنها برای خلق هنر هوش مصنوعی ضروری است، بلکه درک کلی کاربر از هنر و طراحی را نیز بهبود میبخشد و امکان تبدیل دقیق دیدگاه هنری به خروجی دیجیتال را فراهم میکند.
۹. پارامترها
پارامترها، دستورات خاصی هستند که در نرمافزارهای هنر هوش مصنوعی (بهویژه Midjourney) استفاده میشوند و به کاربر اجازه میدهند تا جنبههای ساختاری، فنی و رفتاری فرآیند تولید تصویر را کنترل کند. این پارامترها فراتر از توصیف صرف محتوای تصویر هستند. یکی از مهمترین آنها دستور منفی (Negative Prompting) است که با استفاده از پارامتری مانند --no humans به هوش مصنوعی میگوید که عناصر خاصی را از تصویر حذف کند. این برای حذف سوژهها، رنگها یا سبکهای ناخواسته مفید است. پارامترهای اندازه و ابعاد مانند --ar (aspect ratio) به کاربر امکان میدهند تا نسبت ابعاد دلخواه (مانند ۱۶:۹) را تعریف کند، یا با استفاده از --w (عرض) و --h (ارتفاع)، ابعاد پیکسل را مستقیماً تعیین نماید. توصیه میشود که این مقادیر بین ۲۵۶ تا ۲۰۳۴ پیکسل و مضربی از ۶۴ باشند. شمارههای Seed که با پارامتر --seed {number} (عددی مثبت بین ۰ تا ۴۲۹۴۹۶۷۲۹۵) مشخص میشوند، برای بازتولید هنر با استفاده از همان تصادفیسازی که برای تولید تصویر اصلی استفاده شده است، به کار میروند. این به کاربران کمک میکند تا با یک دستور متنی مشابه، یک خروجی مشابه قبلی را تکرار کنند، اگرچه نویسنده تأکید میکند که این تکنیک در Midjourney کاملاً بینقص نیست. برای کشف Seed یک تصویر موجود در Midjourney، میتوان از ایموجی پاکت نامه (✉) استفاده کرد تا متادیتای مربوطه به پیامهای مستقیم دیسکورد ارسال شود. پارامتر Chaos که با --chaos {num} (مقدار ۰ تا ۱۰۰) تنظیم میشود، میزان تصادفی بودن و غیرمعمول بودن نتایج تولید شده را کنترل میکند و مقادیر بالاتر به هوش مصنوعی آزادی عمل خلاقانهتری میدهد. پارامترهایی مانند Quality Values برای تنظیم کیفیت خروجی و منابع مصرفی، و پارامتر Video برای ذخیره فرآیند تولید تصویر بهصورت متحرک نیز وجود دارند. این پارامترها ابزارهای پیشرفتهای هستند که با تسلط بر آنها، میتوان خروجیهای هوش مصنوعی را به سطحی فراتر از یک توصیف ساده ارتقا داد.
۱۰. ترکیب مجدد سبکهای هنری محبوب
این فصل به اهمیت ترکیب سبکهای هنری مشهور در دستورات متنی میپردازد تا یک دیدگاه هنری منحصر به فرد ایجاد شود و درک کاربر از تاریخ هنر عمیقتر گردد. افزودن نام یک سبک هنری یا یک هنرمند مشهور به دستور متنی، بهطور چشمگیری بر خروجی تأثیر میگذارد. سبکهای مورد بررسی در این فصل شامل موارد زیر هستند: انتزاعی (Abstract) که هدف آن برانگیختن احساسات از طریق ترکیببندی اشکال و رنگها بهجای نمایش اشیا قابل لمس است. هنرمندانی مانند روتکو و موندریان از پیشگامان این سبک هستند و دستورات میتوانند بر مفاهیمی مانند «انرژی» یا «هرج و مرج جهان مدرن» تمرکز کنند. پاپ آرت (Pop Art) که تصاویر روزمره مانند تبلیغات یا کتابهای کمیک را به روشی هنریتر بازسازی میکند و هنرمندانی مانند اندی وارهول و روی لیختناشتاین از نمونههای برجسته آن هستند. دستورات این سبک اغلب بر موضوعاتی مانند «رباتها» یا «تکینگی هوش مصنوعی» با قالب هنری پاپ تمرکز دارند. سورئالیسم (Surrealism) که سعی در بیان دیدگاههای رؤیاگونه با ترکیب عناصر واقعی و غیرواقعی دارد و سالوادور دالی و ماگریت از مشهورترین نمایندگان آن هستند. دستورات در این سبک بر مناظری متمرکز هستند که قوانین فیزیک در آنها رعایت نمیشود یا سازهها از ابرها ساخته شدهاند. هنر معاصر (Contemporary Art) که بیشتر بر ایده و مفهوم پشت اثر هنری تمرکز دارد تا فرم و زیباییشناسی آن و هنرمندانی مانند جف کونز و دیمین هرست در این دسته قرار میگیرند. در این سبک، افزودن عبارت «هنر معاصر» به دستور تقریباً ضروری است و سوژهها میتوانند «تقاطع فناوری و طبیعت» یا «دنیایی که ماشینها در آن هنر میآفرینند» باشند. در نهایت، هنر محلی (Folk Art) که ریشه در سنت و فرهنگ یک منطقه خاص دارد و اغلب کیفیتی ساده و بومی را منعکس میکند. این فصل با ارائه مثالهایی نشان میدهد که چگونه میتوان با استفاده از زبان و ارجاع به دورههای هنری مختلف، سبک بصری یک تصویر را بهطور هدفمند کنترل کرد.
۱۱. دستورات متنی مفید
این فصل به ابزارهایی میپردازد که به کاربران کمک میکنند تا کیفیت دستورات متنی خود را به سطوح بالاتری ارتقا دهند. در حالی که توسعه مهارتهای نگارش دستور متنی با تمرین عملی و کسب تخصص در موضوع به دست میآید، استفاده از نرمافزارهای خارجی هوش مصنوعی میتواند به فرآیند طوفان فکری و تولید سریع دستورات پیچیده کمک کند. یکی از ابزارهای برجسته مورد توصیه در این فصل، Character.ai است. این پلتفرم یک رابط چتبات رایگان را فراهم میکند که به کاربران امکان میدهد با شخصیتهای هوش مصنوعی مختلف، از جمله یک چتبات ویژه به نام “Midjourney Prompts”، گفتگو کنند. این ربات هوش مصنوعی برای کمک به کاربران در ساخت دستورات متنی برای هنر هوش مصنوعی طراحی شده است. کاربران میتوانند دیدگاه خلاقانه خود را به ربات توضیح دهند، و چتبات بر اساس توصیفات کاربر و الگوهای دستورات محبوب، یک دستور متنی هنری دقیق و بهینه شده را تولید میکند. استفاده از ابزارهایی مانند Character.ai به کسانی که در یافتن کلمات مناسب برای توصیف سبک، نورپردازی، کادربندی یا جزئیات فنی مشکل دارند، کمک میکند تا به سرعت از موانع خلاقیت عبور کنند. این یک راه کارآمد برای دستیابی به دستورات متنی طولانیتر و غنیتر است که دستیابی به نتایج بهتر در خروجی نهایی هوش مصنوعی را تضمین میکند. این فصل تأکید میکند که استفاده از ابزارهای کمکی خارجی نه تنها یک مزیت، بلکه یک تاکتیک هوشمندانه برای سرعت بخشیدن به فرآیند تولید و حفظ کیفیت بالای آثار هنری تولید شده توسط هوش مصنوعی است.
۱۲. حقوق تصویر
فصل حقوق تصویر بهعنوان یک مقدمه حیاتی برای ملاحظات اخلاقی و قانونی مرتبط با هنر مولد هوش مصنوعی عمل میکند. در حالی که فناوری هوش مصنوعی بهسرعت پیشرفت کرده است، چارچوب قانونی مربوط به مالکیت و استفاده از تصاویر تولید شده توسط هوش مصنوعی هنوز در حال توسعه و مبهم است. این ابهام به این دلیل است که نرمافزارهای هوش مصنوعی بر روی مجموعهای عظیم از دادهها و آثار هنری موجود آموزش دیدهاند که توسط انسان خلق شدهاند و تعیین اینکه حقوق مالکیت فکری یک اثر تولید شده توسط ماشین به چه کسی تعلق دارد، یک چالش بزرگ است. این فصل هشدار میدهد که صنعت حقوقی و نهادهای نظارتی در تلاش برای بهروزرسانی قوانین خود برای همگام شدن با قابلیتهای جدید این فناوری هستند و در نتیجه، یک «منطقه خاکستری» حقوقی برای سالهای زیادی وجود خواهد داشت. مسئله حقوق تصویر با موضوعاتی مانند کپیرایت آثار اصلی که بهعنوان داده آموزشی استفاده شدهاند، ارتباط تنگاتنگی دارد و شرکتهای فعال در این فضا باید با در نظر گرفتن ریسکهای قانونی، توسعه فناوری خود را با احترام به حقوق مالکیت فکری هنرمندان موجود متوازن کنند. این فصل زمینه را برای بحث عمیقتر در فصل بعد فراهم میکند، جایی که مسائل اخلاقی مربوط به حریم خصوصی و اصالت به تفصیل مورد بررسی قرار میگیرند و اهمیت درک مسئولیتهای قانونی و اخلاقی توسط کاربران پررنگ میشود.
۱۳. اخلاق، حریم خصوصی و اصالت
این فصل به سه موضوع چالشبرانگیز در هنر هوش مصنوعی میپردازد که مانع اصلی در پذیرش گسترده سازمانی نیز محسوب میشوند. حریم خصوصی (Privacy) یکی از نگرانیها است، بهویژه در پلتفرمهای جامعه-محور مانند Midjourney. از آنجایی که هر تصویری که در چترومهای عمومی دیسکورد Midjourney تولید میشود برای همه کاربران آن چتروم قابل مشاهده است، کاربران باید در وارد کردن هرگونه اطلاعات یا تصاویر حساس شرکتی یا شخصی احتیاط کنند، زیرا نتایج بهطور پیشفرض در معرض دید عموم قرار میگیرند. مسئله اصلی دیگر اصالت (Originality) است. مدلهای هوش مصنوعی بر روی مجموعه دادههای عظیمی از هنر تولید شده توسط انسان آموزش دیدهاند، و این میتواند از نظر اخلاقی چالشبرانگیز باشد، بهویژه اگر مدل، سبک یک هنرمند خاص را بدون اجازه تکرار کند و حتی گاهی امضای هنرمند اصلی را در گوشه تصویر بازتولید کند. این امر سؤالاتی را در مورد تعریف تقلید در مقابل روند طبیعی هنری ایجاد میکند. در پاسخ به این چالشها، شرکتهایی مانند Originality.ai و Detect GPT در حال ایجاد ابزارهایی برای تشخیص محتوای تولید شده توسط هوش مصنوعی هستند، هرچند که فناوری تشخیص تصویر هنوز به اندازه تشخیص متن تولید شده توسط GPT-3 پیشرفته نیست. همچنین، شرکتهایی مانند OpenAI در حال توسعه واترمارکهای رمزنگاری شده برای تصاویر تولید شده توسط هوش مصنوعی هستند تا مالکیت و منشأ آنها مشخص شود. این تلاشها برای حفظ حقوق مالکیت فکری و جلوگیری از سوءاستفاده (مانند تقلب در تکالیف) انجام میشود. نویسنده نتیجه میگیرد که صنعت هوش مصنوعی باید خط ظریفی بین احترام به حقوق هنرمندان موجود و قابلیتهای مدلهای هوش مصنوعی برای تولید آثار منحصر به فرد را طی کند. با توجه به اینکه قوانین داده و مقررات بهآهستگی این حوزه جدید را پوشش میدهند، یک منطقه خاکستری حقوقی و اخلاقی برای سالها ادامه خواهد داشت و شرکتها باید ریسکهای قانونی را در برابر مزایای پیشرفت فناوری بسنجند و در عین حال سیاستهایی را برای حفاظت از دادههای شخصی و آثار هنری افراد اتخاذ کنند.
۱۴. نتیجهگیری
با گسترش پذیرش و توسعه فناوری هوش مصنوعی، مفاهیم سنتی بیان هنری به چالش کشیده شده و تعریف “هنرمند” در حال بازنگری است. هوش مصنوعی مولد به هر کسی این امکان را میدهد تا بدون نیاز به بودجه یا منابع انسانی حرفهای، خروجی طراحی خود را بهطور قابل توجهی افزایش دهد. ابزارهای مبتنی بر هوش مصنوعی طوری طراحی شدهاند که بخشهای خستهکننده و تکراری تولید را خودکار کنند و زمان بیشتری را برای فرآیندهای خلاقانهای مانند طوفان فکری و توسعه مفاهیم آزاد سازند. نویسنده تأکید میکند که تولید محتوای هوش مصنوعی یک مهارت ضروری برای همه سازندگان و خالقان محتوا است. آیندهای که نویسنده پیشبینی میکند، در چیزی است که آن را “میانهی گمشده” (The Missing Middle) مینامد؛ این جایی است که همکاری انسان و ماشین به یک هنجار تبدیل میشود و از بهترین عملکرد هر دو طرف استفاده میشود تا نتایج نهایی به دست آید. بهعبارت دیگر، هوش مصنوعی بهعنوان یک همکار (Co-Pilot) برای طراح یا نویسنده عمل میکند، نه بهعنوان یک جایگزین کامل. تسلط بر نحوه استفاده از دستورات متنی، پارامترها و درک ملاحظات فنی و اخلاقی، به کاربران کمک میکند تا در این فضای جدید پیشرو باشند و پتانسیل خود را در زمینه تولید محتوای خلاقانه به حداکثر برسانند. این کتاب، با ارائه درک جامعی از اصول، تکنیکها و ابزارهای اصلی، خواننده را برای این آینده آماده میکند.
۱۵. منابع پیشنهادی
این فصل نهایی، منابعی را برای کمک به خواننده در ادامه مسیر یادگیری و توسعه مهارتهای خود در زمینه هنر هوش مصنوعی و یادگیری ماشین فهرست میکند. با توجه به سرعت بالای توسعه نرمافزارها، ضروری است که کاربران بهطور مداوم دانش خود را بهروز نگه دارند. منابع پیشنهادی شامل سایر کتابها و دورههای آموزشی ارائه شده توسط خود نویسنده، اولیور تئوبالد، هستند که موضوعاتی مانند یادگیری ماشین و هنر هوش مصنوعی را در قالبهای مختلف، از جمله دورههای ویدیویی Skillshare، پوشش میدهند. این منابع به کاربران اجازه میدهند تا دانش فنی عمیقتری در مورد مفاهیم زیربنایی هوش مصنوعی کسب کنند. علاوه بر این، مستندات رسمی نرمافزارهای هنر هوش مصنوعی، بهویژه مستندات Midjourney، بهعنوان یک منبع حیاتی برای یادگیری دقیقتر پارامترها و دستورات پیشرفتهای که در فصول پیشین معرفی شدند، توصیه میشود. این مستندات معمولاً بهطور مرتب بهروزرسانی میشوند تا آخرین ویژگیها و قابلیتهای مدل را منعکس کنند. تأکید این فصل بر این است که یادگیری هنر هوش مصنوعی یک فرآیند مستمر است که نیازمند درگیر شدن فعال با ابزارها و منابع رسمی توسعهدهندگان است.
.
دانلود کتاب کامل: