یکی از محبوب ترین کتاب های آمازون و گودریدز در موضوع هوش مصنوعی در این مطلب تقدیم شما هواداران هوش هاب خواهد شد. خلاصه سه فصل اول را قرار می دهیم و سپس لینک دانلود کامل کتاب را ارائه خواهیم داد.
.
نام انگلیسی کتاب: AI Engineering: Building Applications with Foundation Models
ترجمه فارسی نام کتاب: مهندسی هوش مصنوعی: ساخت برنامهها با مدلهای بنیادین
نام انتشارات: O’Reilly Media, Inc.
تعداد صفحات: ۵۳۴ صفحه
.
نمره کاربران (Goodreads): 4.46 از 5
تعداد رأیدهندگان: ۵۵۷ نفر
.
نمره کاربران (Amazon): 4.7 از 5
تعداد رأی دهندگان: 404 نفر
Bestseller in Machine Theory#
.
مقدمه
این کتاب به عنوان یک راهنمای ضروری برای متخصصانی طراحی شده که به دنبال گذار از مهندسی یادگیری ماشین (ML Engineering) سنتی به پارادایم نوین مهندسی هوش مصنوعی (AI Engineering) هستند. ظهور مدلهای بنیادین (Foundation Models) نظیر مدلهای زبان بزرگ (LLMs) و مدلهای مولد چندوجهی، زمین بازی را به طور کامل تغییر داده است. اگر در گذشته تمرکز بر آموزش مدلهای سفارشی از ابتدا و مهندسی دقیق ویژگیها بود، اکنون تمرکز بر انطباق (Adaptation) مدلهای از پیش آموزشدیده، ساختاردهی زمینه (Context Construction) و بهینهسازی برای مقیاس و هزینه است. این تحول، درهای ساخت محصولات هوش مصنوعی را برای توسعهدهندگان بیشتری باز کرده، اما در عین حال چالشهای جدیدی در زمینه ارزیابی، امنیت، و تأخیر (Latency) ایجاد کرده است. کتاب حاضر یک چارچوب فکری جاودانه و ساختارمند ارائه میدهد که از سطحیترین روشهای انطباق (مانند مهندسی پرامپت) شروع شده و تا پیچیدهترین معماریها (مانند عوامل هوش مصنوعی و تنظیم دقیق پارامتری) پیش میرود. هدف این است که مهندسان بتوانند بدون اتکا به ابزارهای زودگذر و صرفاً بر اساس اصول مهندسی قوی، سیستمهای هوش مصنوعی را از مرحله اثبات مفهوم به فاز تولید (Production) با قابلیت اطمینان بالا برسانند. این کتاب، مسیری برای فهم عمیق این فناوریها و نحوه بهکارگیری مسئولانه آنها در محصولات و خدمات دنیای واقعی است.
ایده اصلی
ایده اصلی کتاب، ارائه یک چارچوب مهندسی سیستمی و پایان به پایان برای توسعه برنامههای کاربردی مبتنی بر مدلهای بنیادین است. نویسنده استدلال میکند که قدرت مدلهای بنیادین در قابلیت آنها برای تعمیم (Generalization) و انجام وظایف چندگانه نهفته است، اما برای استفاده مؤثر از این قابلیتها، به یک رویکرد مهندسی دقیق نیاز داریم. این رویکرد حول محور چند اصل کلیدی میچرخد: اول، آغاز با سادگی (مانند مهندسی پرامپت ساده) و حرکت تدریجی به سمت پیچیدگیهای موجه (مانند RAG یا عوامل هوش مصنوعی)؛ دوم، تأکید بر ارزیابی سختگیرانه و مداوم برای مدیریت ریسک توهمزایی و شکستهای فاجعهبار؛ سوم، بهینهسازی سیستم برای سرعت و کاهش هزینه در مقیاس تولید. این کتاب، نقش مهندس هوش مصنوعی را در عصر حاضر، به عنوان یک ارکستراتور (Orchestrator) و سازگارکننده تعریف میکند که وظیفه دارد مدل قدرتمند را با دادهها و نیازمندیهای خاص یک دامنه گره بزند. در نهایت، ایده محوری، ساخت سیستمهایی است که نه تنها کار میکنند، بلکه قابل اعتماد، مقیاسپذیر و پایدار برای بهبود مستمر در محیطهای متغیر هستند.
فصل ۱: مقدمهای بر ساخت برنامههای هوش مصنوعی با مدلهای بنیادین
انقلاب هوش مصنوعی مولد که با مدلهای زبان بزرگ آغاز شد، نقطه عطفی در توسعه نرمافزار ایجاد کرده است و نیازمندی به یک رشته تخصصی جدید به نام مهندسی هوش مصنوعی را به وجود آورده است. این رشته جدید، با ML Engineering سنتی در هسته خود متفاوت است، زیرا به جای ساخت مدل از دادههای ساختاریافته، بر استفاده از مدلهای از پیش آموزشدیده و بزرگ برای حل مسائل مختلف تمرکز دارد. این تغییر پارادایم، موانع ورود را به شدت کاهش داده و امکان ساخت محصولات پیچیده را برای توسعهدهندگان معمولی فراهم کرده است. مدلهای بنیادین، که بر روی حجم عظیمی از دادههای متنوع آموزش دیدهاند، میتوانند برای وظایف مختلفی از جمله کدنویسی، تولید محتوای متنی، خلاصه سازی، و ایجاد تصاویر و ویدئو به کار روند. این فصل معماری جدید پشته هوش مصنوعی را تشریح میکند که در آن، خود مدل بنیادین به یک لایه زیرین تبدیل شده است و مهندسی هوش مصنوعی بر روی لایههای بالای آن (شامل مهندسی پرامپت، لایه بازیابی، و لایه ارکستراسیون) متمرکز است. در این چارچوب جدید، آزمایش مدلهای مختلف و استراتژیهای انطباق جایگزین آزمایش ابرپارامترها شده و به بخش اصلی وظایف مهندس هوش مصنوعی تبدیل شده است. این فصل تاکید میکند که موفقیت یک برنامه هوش مصنوعی صرفاً به انتخاب مدل بستگی ندارد، بلکه به نحوه ادغام آن در یک سیستم کامل، کارآمد و قابل اعتماد مرتبط است. درک این اصول و اجزای جدید پشته فناوری، برای هر کسی که به دنبال استقرار موفقیتآمیز برنامههای هوش مصنوعی در مقیاس تولید است، حیاتی خواهد بود.
فصل ۲: درک مدلهای بنیادین
برای مهندسی یک برنامه کاربردی هوش مصنوعی قوی، درک دقیق اجزای داخلی و فرآیندهای پس از آموزش مدلهای بنیادین الزامی است. این مدلها بر اساس حجم عظیمی از دادههای آموزشی شکل میگیرند که خود این دادهها، ریشه تواناییهای مدل و در عین حال، منشأ سوگیریهای آن هستند. این فصل اهمیت درک مقیاسگذاری (Scaling Laws) را برجسته میکند؛ این قوانین، که رابطه بین اندازه مدل، حجم داده و بودجه محاسباتی را توصیف میکنند، به مهندسان در انتخاب مدل بهینه کمک میکنند. با این حال، حتی مدلهای عالی نیز پس از آموزش اولیه نیاز به پسآموزش (Post-Training) دارند تا برای وظایف یا ترجیحات انسانی خاص همراستا شوند. این فرآیند دو مرحلهای شامل تنظیم دقیق تحت نظارت (SFT) برای آموزش بر روی دادههای وظیفه خاص و سپس تنظیم دقیق ترجیحی (Preference Finetuning) برای همراستا کردن خروجی با انتظارات و معیارهای انسانی است. پیچیدگی ترجیحات انسانی، تنظیم دقیق را به یک چالش مستمر تبدیل میکند. همچنین این فصل بر ماهیت احتمالی مدلهای هوش مصنوعی تأکید دارد؛ مدلها به جای دادن یک پاسخ قطعی، توزیعی از احتمالات برای توکن بعدی تولید میکنند. کنترل این طبیعت احتمالی از طریق پارامترهای نمونهگیری (Sampling) مانند دما (Temperature) و تاپ-پی (Top-p) انجام میشود که بر تنوع و خلاقیت خروجی مدل تأثیر میگذارند. درک اینکه چگونه این پارامترها و تنظیمات پس از آموزش بر خروجی نهایی تأثیر میگذارند، برای به دست آوردن خروجیهای قابل اعتماد و ساختاریافته از مدلهای زبان ضروری است.
فصل ۳: روششناسی ارزیابی
با توجه به این که مدلهای بنیادین میتوانند خروجیهای باز و خلاقانهای تولید کنند که اغلب پاسخهای «صحیح» یا «غلط» ندارند، ارزیابی آنها بسیار دشوارتر از مدلهای یادگیری ماشین سنتی است. این فصل یک چارچوب دقیق برای روششناسی ارزیابی معرفی میکند، زیرا بدون ارزیابی دقیق، خطر استقرار مدلهای معیوب با قابلیتهای توهمزایی افزایش مییابد. در ابتدا، معیارهای سنتی مدلسازی زبان مانند سرگشتگی (Perplexity) معرفی میشوند؛ سرگشتگی اندازهگیری میکند که مدل چقدر از مشاهده یک دنباله از کلمات تعجب میکند و به عنوان یک معیار پراکسی برای سنجش کیفیت مدل در تولید متن روان و منطقی استفاده میشود. با این حال، سرگشتگی نمیتواند کیفیت محتوای تولید شده برای یک وظیفه خاص را ارزیابی کند. بنابراین، این فصل به رویکردهای پیشرفتهتر، از جمله اندازهگیری شباهت معنایی با استفاده از جاسازیها (Embeddings) میپردازد، که نزدیکی معنایی خروجی مدل به یک پاسخ مرجع را میسنجند. بخش اصلی این روششناسی، استفاده از هوش مصنوعی به عنوان قاضی (AI as a Judge) است. در این روش، یک مدل بنیادین قویتر برای ارزیابی خروجی یک مدل کوچکتر بر اساس مجموعهای از معیارها (مانند دقت، روانی و مطابقت با پرامپت) به کار گرفته میشود. اگرچه این رویکرد نیز سوگیریهای خود را دارد، اما امکان ارزیابی مقایسهای سریع و مقیاسپذیر را فراهم میکند که برای تنظیم دقیق و انتخاب مدل حیاتی است. این فصل تاکید میکند که مهندسان باید از معیارهای ساده فراتر رفته و به ارزیابیهای جامع و سیستمی که عملکرد مدل را در سناریوهای عملیاتی شبیهسازی میکنند، روی آورند.
دانلود کامل کتاب: