چرا ماشین‌ها یاد می‌گیرند: ریاضیات زیبا پشت هوش مصنوعی مدرن

کتاب Best Seller آمازون در حوزه هوش مصنوعی که قیمتی بین 14 تا 16 دلار دارد و ما قصد داریم به صورت رایگان خلاصه و اصل پی دی اف کتاب را در اختیار شما هواداران هوش هاب قرار دهیم.

مقدمه

این کتاب نه تنها تاریخچه و تحولات اجتماعی هوش مصنوعی (AI) را روایت می‌کند، بلکه به کاوش در قلب این انقلاب تکنولوژیک، یعنی ریاضیات ظریف و زیربنایی آن می‌پردازد. از زمان آغازین این حوزه در دهه‌های گذشته تا ظهور مدل‌های زبانی بزرگ (LLMs) نظیر ChatGPT ، نویسنده با هدف زدودن رمز و راز از یادگیری ماشینی، به سراغ مفاهیم و الگوریتم‌هایی می‌رود که ماشین‌ها را قادر می‌سازند تا الگوهای پنهان در داده‌ها را بدون برنامه‌ریزی صریح، درک کنند.

ریشه‌های هوش مصنوعی امروزی به کار «فرانک روزنبلات» در سال ۱۹۵۸ برمی‌گردد؛ زمانی که او پِرسِپترون (Perceptron) را اختراع کرد. روزنامه‌ها در آن زمان با اغراق از ماشینی سخن گفتند که روزی می‌تواند راه برود، حرف بزند، ببیند، بنویسد و حتی از وجود خود آگاه باشد. اگرچه پرسِپترون هرگز به آن حد از هیاهو نرسید، اما کار روزنبلات آغازگر انقلابی بود که امروزه شاهد آن هستیم. نکته کلیدی‌ای که در گزارشات آن زمان نادیده گرفته شد، این بود که روزنبلات توانست یادگیری ماشین را تنها با «اصطلاحات بسیار فنی» توضیح دهد. این کتاب به سراغ همان جزئیات فنی می‌رود.

یادگیری ماشینی (ML) بر پایه‌ی چهار ستون اصلی ریاضیات استوار است: جبر خطی (که ستون فقرات ML است)، حسابان (Calculus) (همچون دیفرانسیل و انتگرال)، احتمالات و آمار (با محوریت قضیه بیز و توزیع گوسی) و نظریه بهینه‌سازی. این مفاهیم ریاضی که بسیاری از آن‌ها در دوران دبیرستان یا اوایل دانشگاه تدریس می‌شوند و برخی قدمتی چند صد ساله دارند ، در هم‌آمیزی با علوم کامپیوتر، قدرتی شگفت‌انگیز را به ماشین‌ها اعطا کرده‌اند. درک این اصول ریاضی نه تنها برای شناخت قدرت هوش مصنوعی ضروری است، بلکه محدودیت‌های آن را نیز آشکار می‌سازد و این امکان را فراهم می‌کند که تصمیم‌گیری درباره نحوه ساخت و به‌کارگیری این فناوری مخرب و تهدیدآمیز، تنها در اختیار متخصصان آن نباشد. این کتاب با یک مفهوم ساده آغاز می‌شود و گام‌به‌گام پیچیدگی‌های ریاضی را افزایش می‌دهد تا خواننده را به درک کاملی از معماری شبکه‌های عصبی عمیق برساند.

ایده اصلی

ایده اصلی کتاب، تبیین این حقیقت است که انقلاب هوش مصنوعی و یادگیری ماشینی امروزی، نه بر پایه‌ی جادو یا تکنولوژی‌های ناشناخته، بلکه بر ریاضیات کلاسیک، ساده و ظریف بنا شده است. نویسنده معتقد است که برای درک واقعی قدرت و محدودیت‌های هوش مصنوعی (به ویژه شبکه‌های عصبی عمیق)، باید از پوسته‌ی نرم‌افزاری و هایپ‌های رسانه‌ای عبور کرده و به زیرساخت‌های ریاضی آن وارد شویم.

این کتاب از طریق روایت تاریخی الگوریتم‌های کلیدی و معرفی پیشگامان این حوزه، نشان می‌دهد که چگونه مفاهیمی مانند جبر خطی (ماتریس‌ها و بردارها)، حسابان (گرادیان و بهینه‌سازی)، و آمار (احتمال و توزیع)، به طور همگرا، سیستم‌هایی را خلق کرده‌اند که می‌توانند الگوها را از داده‌ها بیاموزند. تأکید اصلی بر این نکته است که سادگی مفهومی ریاضیات زیربنایی (مانند الگوریتم نزول گرادیان تصادفی یا قضیه بیز) دلیلی بر این است که این فناوری «احتمالاً در مسیر درستی قرار دارد» و قدرتش در گرو تکرار، مقیاس‌پذیری و حجم داده‌ها است. در نهایت، ایده اصلی کتاب خواننده را به یک نقطه “ناراحت‌کننده اما هیجان‌انگیز” می‌رساند: جایی که شواهد تجربی شبکه‌های عصبی عمیق (مانند پدیده‌ی نزول دوگانه)، برخی از اصول بنیادین نظری یادگیری ماشینی را نقض کرده و نشان می‌دهد که برای درک کامل آینده هوش مصنوعی، نیازمند توسعه‌ی نظریه‌های ریاضی جدیدی هستیم.

تلاش مذبوحانه برای یافتن الگوها

این فصل با تمثیل رفتار اردک‌های جوان آغاز می‌شود که بلافاصله پس از تولد، بر اساس مفهوم رابطه‌ای، مانند شباهت یا تفاوت بین اشیائی که می‌بینند، نقش‌پذیری (Imprinting) می‌کنند و الگوها را یاد می‌گیرند. این توانایی اردک‌ها در یادگیری مفاهیم انتزاعی از حداقل داده‌های حسی، سؤالی اساسی برای پژوهشگران هوش مصنوعی مطرح می‌کند. با این حال، همانند اردک‌ها، هسته اصلی یادگیری ماشینی نیز توانایی تشخیص و استخراج الگوها از داده‌ها است.

اختراع پرسِپترون توسط فرانک روزنبلات در دهه ۱۹۵۰، یک الگوریتم “الهام‌گرفته از مغز” بود که می‌توانست صرفاً با بررسی داده‌ها، الگوها را بیاموزد. یکی از دلایل هیجان‌انگیز بودن پرسِپترون این بود که محققان توانستند ثابت کنند که این الگوریتم، تحت شرایطی خاص در مورد داده‌ها، همیشه و در یک زمان محدود به راه حل همگرا می‌شود و الگوی پنهان را پیدا می‌کند. این اطمینان در دنیای محاسبات بسیار ارزشمند است.

مفهوم “الگو” در داده‌ها با استفاده از یک مثال ساده معادله خطی توضیح داده می‌شود: اگر خروجی (y) به صورت خطی به ورودی‌ها (x1, x2) مرتبط باشد، هدف یادگیری ماشینی یافتن وزن‌ها (w) در معادله $y = w_1x_1 + w_2x_2$ است. این وزن‌ها یا ضرایب، الگو یا رابطه‌ی بین ورودی‌ها و خروجی را تعریف می‌کنند. فرآیند یافتن الگوریتمی این وزن‌ها همان “یادگیری” است.

این فرآیند ساده، آغازین‌ترین شکل یادگیری با نظارت (Supervised Learning) است. در این حالت، داده‌ها برچسب‌گذاری شده یا حاشیه‌نویسی شده‌اند؛ یعنی هر ورودی (مانند تعداد اتاق‌ها و متراژ خانه) دارای یک خروجی (مانند قیمت خانه) است. هنگامی که مدل وزن‌ها را یاد گرفت، می‌تواند از آن برای پیش‌بینی خروجی‌های جدیدی استفاده کند که قبلاً هرگز ندیده است. این فصل با اشاره به ریشه‌های پرسِپترون در مقاله سال ۱۹۴۳ توسط «وارن مک‌کالوچ» (عصب‌شناس-فیلسوف) و «والتر پیتس» (نابغه منطق‌دان) در مورد نورون مصنوعی اولیه، چگونگی تحقق منطق در مغز با استفاده از گیت‌های منطقی بولی را بررسی می‌کند، که پایه‌ای برای ساخت اولین نورون مصنوعی شد.

ما همه در اینجا فقط اعداد هستیم…

برای اینکه ماشین‌ها بتوانند الگوها را یاد بگیرند، ابتدا باید تمام داده‌های خام جهان را به زبانی که کامپیوتر می‌فهمد ترجمه کرد: اعداد. این فصل بر اهمیت بردارها (Vectors) در ترجمه داده‌های فیزیکی، حسی و انتزاعی به فرمت ریاضی تمرکز دارد. یک بردار در جبر خطی، چیزی بیش از یک سطر یا ستون از اعداد نیست، اما این مفهوم ساده، نحوه نمایش هر نمونه داده (چه یک تصویر، چه یک کلمه یا مشخصات یک فرد) را در فضای یادگیری ماشینی تعریف می‌کند.

هر نمونه داده، که در یادگیری ماشینی به عنوان یک نمونه (Instance) شناخته می‌شود، می‌تواند به صورت یک بردار d-بُعدی نمایش داده شود. به عنوان مثال، اطلاعات یک شخص (قد، وزن، فشار خون، سطح کلسترول و غیره) به یک بردار تبدیل می‌شود که هر جزء آن، یک بُعد از آن داده‌ی d-بُعدی را تشکیل می‌دهد. مجموعه‌ای از این نمونه‌ها، یک ماتریس (Matrix) را می‌سازد که در آن هر سطر یک نمونه و هر ستون یک ویژگی (Feature) را نشان می‌دهد.

تمامی عملیات یادگیری ماشینی – از محاسبه‌ی شباهت تا تصمیم‌گیری نهایی – از طریق عملیات برداری و ماتریسی انجام می‌شود. برای مثال، شباهت یا فاصله بین دو نمونه (دو بردار) توسط توابعی مانند فاصله اقلیدسی (Euclidean Distance) یا فاصله منهتن (Manhattan Distance) محاسبه می‌شود. این فصل نشان می‌دهد که چگونه مفاهیم پیچیده‌ای مانند “شبیه بودن” یا “دور بودن” در نهایت به توابع ساده‌ای از جمع، تفریق و ضرب اعداد در فضای برداری تقلیل می‌یابند. این تبدیل داده به ساختارهای عددی، ستون فقرات جبر خطی را تشکیل می‌دهد که بدون آن، هیچ الگوریتم یادگیری ماشینی‌ای قابلیت اجرا نخواهد داشت. درک عمیق این که چگونه هر ورودی، چه یک پیکسل در تصویر باشد و چه یک کلمه در متن، با وزن‌های متناظر خود به عنوان یک بردار در نظر گرفته می‌شود و چطور ضرب داخلی این بردارها مجموع ورودی وزن‌دهی‌شده یک نورون مصنوعی را می‌سازد، کلید فهم فرآیند محاسباتی شبکه‌های عصبی است.

کف کاسه

این فصل به موضوع حیاتی بهینه‌سازی (Optimization) می‌پردازد که قلب فرآیند یادگیری در ماشین‌ها است. یادگیری را می‌توان به صورت یافتن پایین‌ترین نقطه در یک منظر زیان (Loss Landscape) تصور کرد. در این منظر، یک تابع ریاضی به نام تابع زیان (Loss Function) میزان خطای مدل را اندازه‌گیری می‌کند؛ یعنی چقدر پیش‌بینی مدل از حقیقت زمینه‌ای (Ground Truth) دور است. هرچه زیان بیشتر باشد، مدل ضعیف‌تر عمل کرده است. هدف ماشین، یافتن مجموعه وزن‌هایی است که زیان را به حداقل ممکن برساند، شبیه به یافتن “کف کاسه” در یک تپه‌ی چندبُعدی.

الگوریتم اصلی مورد استفاده برای رسیدن به این هدف، نزول گرادیان (Gradient Descent) است. گرادیان در حسابان، جهت تندترین صعود تابع را نشان می‌دهد. بنابراین، با حرکت در جهت منفی گرادیان، ماشین در جهت تندترین نزول حرکت کرده و به طور مداوم وزن‌های خود را تنظیم می‌کند تا به سمت حداقل زیان حرکت کند.

این فصل به طور مفصل به تاریخچه این الگوریتم‌ها می‌پردازد و الگوریتم کمترین میانگین مربعات (LMS) که توسط «برنارد ویدرو» و «تد هاف» در سال ۱۹۵۹ ابداع شد را معرفی می‌کند. الگوریتم LMS در واقع اولین الگوریتمی بود که از یک تقریب از روش تندترین نزول برای آموزش یک نورون مصنوعی استفاده کرد. این الگوریتم، که امروزه در هر مودم و فیلتر تطبیق‌پذیر (Adaptive Filter) دیجیتالی روی کره زمین استفاده می‌شود، مسیر را برای آموزش شبکه‌های عصبی عمیق هموار کرد. در حالی که برای یک تابع زیان محدب (Convex) (شبیه به کاسه)، نزول گرادیان همیشه به حداقل کلی (Global Minimum) می‌رسد، در مورد شبکه‌های عصبی عمیق با میلیون‌ها پارامتر و توابع فعال‌سازی غیرخطی، تابع زیان دیگر محدب نیست و دارای تپه‌ها و دره‌های بی‌شماری است که هر دره نشان‌دهنده یک حداقل محلی (Local Minimum) است. با وجود این پیچیدگی‌ها، نزول گرادیان در عمل به خوبی کار می‌کند، هرچند تئوری ریاضی هنوز برای درک کامل آن عقب مانده است.

به احتمال زیاد

این فصل به نقش حیاتی احتمالات و آمار در یادگیری ماشینی می‌پردازد و ML را نه صرفاً به عنوان محاسبات، بلکه به عنوان استدلال احتمالی و یادگیری آماری معرفی می‌کند. ماشین‌ها برای تصمیم‌گیری در مورد الگوها باید عدم قطعیت ذاتی داده‌ها را مدیریت کنند. اینجاست که مفاهیمی مانند متغیر تصادفی (Random Variable) و توزیع احتمال (Probability Distribution) وارد عمل می‌شوند.

ستون اصلی این فصل، قضیه بیز (Bayes’s Theorem) است که در قرن هجدهم توسط توماس بیز ابداع شد. قضیه بیز راهی برای به‌روزرسانی باورها (احتمالات) در مورد یک فرضیه، با در نظر گرفتن شواهد جدید ارائه می‌دهد. این قضیه برای دسته‌بندی بهینه بیزی (Bayes Optimal Classifier) استفاده می‌شود. در یادگیری ماشینی، این رویکرد به معنای یافتن توزیع احتمال شرطی (Conditional Probability Distribution) است که نشان می‌دهد احتمال تعلق یک نمونه داده به یک دسته خاص چقدر است، با در نظر گرفتن ویژگی‌های مشاهده‌شده آن نمونه.

همچنین این فصل به چگونگی تخمین توزیع‌های احتمالاتی می‌پردازد. دو روش اصلی برای تخمین پارامترهای مدل (مانند میانگین و واریانس در توزیع گوسی) وجود دارد: تخمین حداکثر درستنمایی (Maximum Likelihood Estimation – MLE) و تخمین حداکثر پسین (Maximum A Posteriori – MAP). MLE پارامترهایی را پیدا می‌کند که احتمال مشاهده داده‌های موجود را به حداکثر می‌رساند. در مقابل، MAP که یک رویکرد بیزی است، با یک باور اولیه (Prior) در مورد توزیع پارامترها شروع می‌کند و سپس با استفاده از داده‌ها، آن باور را به یک احتمال پسین (Posterior) به‌روزرسانی می‌کند. این تنوع در رویکردهای آماری، انعطاف‌پذیری لازم را برای مدل‌سازی انواع پدیده‌های تصادفی در داده‌ها فراهم می‌آورد. در نهایت، درک توزیع‌هایی مانند توزیع برنولی (برای متغیرهای دو حالتی مانند شیر یا خط) یا توزیع گوسی (منحنی زنگوله‌ای) برای توصیف عدم قطعیت و استخراج مدل‌های آماری، ضروری است.

کبوتر با کبوتر

این فصل بر دسته دیگری از مسائل یادگیری ماشینی، به نام دسته‌بندی (Classification) و خوشه‌بندی (Clustering) تمرکز دارد. برخلاف رگرسیون که هدف آن پیش‌بینی یک مقدار عددی (مانند قیمت خانه) است، دسته‌بندی با هدف پیش‌بینی دسته یا طبقه یک نمونه داده سروکار دارد (مانند سرطان‌زا بودن یا نبودن یک تومور). خوشه‌بندی، که نوعی یادگیری بدون نظارت (Unsupervised Learning) است، حتی یک گام فراتر رفته و هدف آن یافتن گروه‌های طبیعی (خوشه‌ها) در داده‌هایی است که هیچ برچسبی ندارند.

الگوریتم محوری مورد بحث در این فصل k-نزدیکترین همسایه (k-Nearest Neighbors – kNN) است. این الگوریتم فوق‌العاده ساده، یکی از اولین و اساسی‌ترین الگوریتم‌های دسته‌بندی است و بر اساس این ایده عمل می‌کند که “پرندگان یک پر و بال با هم جمع می‌شوند”؛ یعنی یک نمونه جدید احتمالاً متعلق به همان طبقه‌ای است که اکثر k همسایه نزدیک آن در فضای داده به آن تعلق دارند.

برای اینکه kNN کار کند، به معیاری برای اندازه‌گیری فاصله نیاز داریم. این فصل اهمیت معیارهای فاصله را برجسته می‌کند. در حالی که فاصله اقلیدسی (کوتاه‌ترین مسیر بین دو نقطه) رایج‌ترین معیار است، در برخی زمینه‌ها، مانند شبکه‌های شهری، معیارهای دیگری مانند فاصله منهتن (Manhattan Distance) که مسافت پیمایش شده در راستای محورها (مانند حرکت در خیابان‌ها و کوچه‌های منهتن) را محاسبه می‌کند، مناسب‌تر هستند.

همچنین این فصل به چالش بزرگی به نام نفرین ابعاد (Curse of Dimensionality) می‌پردازد. با افزایش تعداد ویژگی‌ها یا ابعاد یک فضای داده، داده‌ها بسیار پراکنده می‌شوند، به طوری که مفهوم “نزدیکی” بین نمونه‌ها معنای خود را از دست می‌دهد و هر نقطه‌ای عملاً از بقیه نقاط دور می‌شود. این پدیده باعث می‌شود الگوریتم‌هایی مانند kNN، که بر نزدیکی متکی هستند، در فضاهای با ابعاد بالا به شدت ناکارآمد شوند. درک این فصل حیاتی است، زیرا به خواننده نشان می‌دهد که چگونه یک مفهوم ظاهراً ساده (فاصله) در فضاهای چندبُعدی پیچیده می‌شود و چگونه برای مقابله با آن، نیاز به ابزارهای ریاضی پیشرفته‌تری مانند کاهش ابعاد (که در فصل‌های بعدی می‌آید) داریم.

جادویی در این ماتریس‌ها نهفته است

جبر خطی و مفهوم ماتریس‌ها (Matrices) شالوده تمامی محاسبات در یادگیری ماشینی را تشکیل می‌دهد. این فصل نشان می‌دهد که چگونه ماتریس‌ها به ابزاری جادویی برای سازماندهی، دستکاری و استخراج الگوهای پنهان در داده‌ها تبدیل می‌شوند. جبر خطی فراتر از صرفاً سازماندهی داده‌ها به شکل بردارها و ماتریس‌ها است؛ بلکه مجموعه‌ای از قوانین برای تحول و تغییر شکل این داده‌ها است.

یکی از قدرتمندترین کاربردهای ماتریس‌ها در یادگیری ماشینی، کاهش ابعاد (Dimensionality Reduction) است. همانطور که در فصل قبل بحث شد، «نفرین ابعاد» می‌تواند کارایی مدل‌ها را از بین ببرد. برای غلبه بر این مشکل، نیاز به ابزاری داریم که بتواند ابعاد داده را کاهش دهد و در عین حال بیشترین اطلاعات را حفظ کند. در اینجا، تحلیل مؤلفه‌های اصلی (Principal Component Analysis – PCA) وارد عمل می‌شود.

PCA، که یک تکنیک آماری و جبر خطی محور است، با استفاده از مفاهیمی مانند کوواریانس (Covariance) و مقادیر ویژه (Eigenvalues)، جهات اصلی بیشترین واریانس (تغییرپذیری) در داده‌ها را شناسایی می‌کند. سپس داده‌ها به یک فضای با ابعاد کمتر و جدید نگاشت می‌شوند، به طوری که در این فضای جدید، کمترین اطلاعات از دست می‌رود. به عبارت دیگر، PCA اساساً داده‌ها را “چرخانده” و “فشرده” می‌کند تا ساختار اصلی و پنهان آن آشکار شود. برای مثال، یک مجموعه داده شامل اطلاعات EEG مغزی را می‌توان از صدها بُعد به تنها چند بُعد کاهش داد و در عین حال تقریباً تمام اطلاعات حیاتی مربوط به فعالیت مغز را حفظ کرد. این فصل درک جامعی از اینکه چگونه ماتریس کوواریانس (Covariance Matrix) می‌تواند همبستگی بین ویژگی‌های مختلف را ثبت کند و چگونه مقادیر ویژه و بردارهای ویژه می‌توانند به عنوان دستورالعمل‌های اصلی برای برش و فشرده‌سازی داده‌ها عمل کنند، ارائه می‌دهد. این فرآیند ساده و ظریف جبر خطی، هسته اصلی بسیاری از کاربردهای تحلیل داده و بینایی کامپیوتر است.

شعبده بزرگ کِرنل

این فصل به یکی از خلاقانه‌ترین و هوشمندانه‌ترین ایده‌های یادگیری ماشینی می‌پردازد: شعبده کِرنل (Kernel Trick). این ایده حول محور حل مسائل جدایی‌ناپذیر خطی (Non-linearly Separable) می‌چرخد. پرسِپترون‌های اولیه تنها قادر به حل مسائلی بودند که در فضای ورودی، توسط یک خط مستقیم (یا ابرصفحه) قابل جداسازی بودند. اما بسیاری از مسائل دنیای واقعی اینگونه نیستند (مانند مسئله XOR که در فصل‌های بعدی می‌آید).

شعبده کِرنل با معرفی الگوریتم ماشین‌های بردار پشتیبان (Support Vector Machines – SVM) توسط «ولادیمیر واپینک» و همکارانش به اوج خود رسید. ایده اصلی SVM این است که اگر داده‌ها در فضای بُعد پایین قابل جداسازی خطی نباشند، یک تابع نگاشت (Mapping Function) وجود دارد که داده‌ها را به یک فضای بُعد بالا (High-Dimensional Space) جدید منتقل می‌کند، به طوری که در آن فضای جدید، داده‌ها به صورت خطی قابل جداسازی باشند.

اما اجرای واقعی این فرآیند در فضای با ابعاد بسیار بالا (که می‌تواند بی‌نهایت بُعد باشد) بسیار پرهزینه و ناکارآمد است. “شعبده” در اینجا این است که تابع کِرنل به ما اجازه می‌دهد تا حاصل‌ضرب داخلی (Dot Product) بین جفت نقاط در آن فضای بُعد بالا را مستقیماً در فضای بُعد پایین محاسبه کنیم، بدون اینکه واقعاً به فضای بُعد بالا برویم.

این فصل نشان می‌دهد که چگونه کِرنل (مانند کِرنل‌های چندجمله‌ای یا گوسی) به عنوان یک « میان‌بر محاسباتی» عمل می‌کند، که به مدل‌ها اجازه می‌دهد تا تصمیمات پیچیده و غیرخطی بگیرند، در حالی که محاسبات را در یک فضای ساده‌تر نگه می‌دارند. این رویکرد، در نهایت، به یک مسئله بهینه‌سازی مقید (Constrained Optimization) تبدیل می‌شود که توسط مُبهم‌کننده‌های لاگرانژ (Lagrange Multipliers) قابل حل است. این روش، یک نمونه درخشان از قدرت ریاضیات است که یک چالش به‌ظاهر غیرقابل‌حل محاسباتی را با یک ترفند ظریف ریاضی (معروف به «ترفند کِرنل») کنار می‌زند و یک الگوریتم دسته‌بندی فوق‌العاده قوی و کارآمد را خلق می‌کند.

با کمی کمک از فیزیک

این فصل به چگونگی الهام گرفتن هوش مصنوعی و یادگیری ماشینی از مفاهیم فیزیکی می‌پردازد. همانطور که نورون‌های مصنوعی اولیه از سیستم عصبی زیستی الگوبرداری کردند، برخی از قدرتمندترین الگوریتم‌های شبکه‌های عصبی نیز ریشه در فیزیک آماری و ترمودینامیک دارند.

یکی از تأثیرگذارترین مدل‌ها در این زمینه، شبکه‌های هافیلد (Hopfield Networks) است که توسط فیزیکدان مشهور، «جان هافیلد»، در سال ۱۹۸۲ معرفی شد. این شبکه‌ها به عنوان حافظه تداعی‌گر (Associative Memory) عمل می‌کنند و از فیزیک فرومغناطیس (Ferromagnetism) الهام گرفته شده‌اند. در فیزیک، مدل‌های فرومغناطیس (مانند مدل آیزینگ) حالات انرژی سیستم را توصیف می‌کنند؛ فرومغناطیس به حالت کمترین انرژی میل می‌کند. در شبکه‌های هافیلد، الگوهای ذخیره‌شده (حافظه‌ها) با حالت‌های انرژی کم سیستم مطابقت دارند. وقتی یک ورودی ناقص یا نویزدار به شبکه داده می‌شود، شبکه به سمت نزدیک‌ترین حالت انرژی کم (حافظه ذخیره‌شده) “سقوط” می‌کند و به این ترتیب، الگوهای کامل را فرا می‌خواند.

همچنین این فصل به الگوریتم آنیل‌سازی شبیه‌سازی‌شده (Simulated Annealing) می‌پردازد که روشی برای بهینه‌سازی و یافتن حداقل کلی تابع زیان است. این الگوریتم از فرآیند فیزیکی «آنیل‌سازی» فلزات الگوبرداری شده است که در آن فلز را تا دمای بالا گرم کرده و سپس به آرامی سرد می‌کنند تا ساختار بلوری به یک حالت انرژی کمینه و پایدار برسد. در بهینه‌سازی، این فرآیند به مدل اجازه می‌دهد تا در مراحل اولیه (دمای بالا) از تله حداقل‌های محلی بپرد و شانس یافتن حداقل کلی (Global Minimum) را افزایش دهد. این فصل نشان می‌دهد که چگونه فیزیک، با ارائه چارچوب‌های دقیق برای توصیف حالات انرژی و سیستم‌های پیچیده، به مهندسان هوش مصنوعی کمک کرده است تا الگوریتم‌های قدرتمندی برای ذخیره‌سازی حافظه و بهینه‌سازی مسائل غیرخطی و دشوار بسازند.

مردی که یادگیری عمیق را عقب انداخت (به کنایه)

این فصل به یکی از نقاط تاریک و حیاتی در تاریخ هوش مصنوعی، معروف به “زمستان هوش مصنوعی” (AI Winter) می‌پردازد. شخصیت اصلی این روایت «ماروین مینسکی» و «سیمور پاپرت» و کتاب تأثیرگذار آن‌ها، پرسپترون‌ها (Perceptrons) است که در سال ۱۹۶۹ منتشر شد. این کتاب در واقع تأثیر عظیمی در کاهش بودجه و علاقه به تحقیق در مورد شبکه‌های عصبی مصنوعی (که بعداً به یادگیری عمیق تبدیل شد) داشت و به همین دلیل برخی مینسکی را «مردی که یادگیری عمیق را عقب انداخت» می‌خوانند.

تحلیل مینسکی و پاپرت بر این بود که پرسِپترون‌های تک لایه (Single-Layer) روزنبلات، از نظر ریاضی محدود هستند و قادر به حل مسائل ساده‌ای مانند XOR (یای انحصاری) نیستند. مسئله XOR یک مثال ساده اما حیاتی از یک مسئله جدایی‌ناپذیر خطی است؛ به این معنی که هیچ خط مستقیمی نمی‌تواند داده‌های آن را به درستی دسته‌بندی کند.

این فصل توضیح می‌دهد که چگونه مینسکی و پاپرت از این محدودیت پرسِپترون‌های تک لایه نتیجه گرفتند که شبکه‌های عصبی یک بن‌بست هستند و بر روی سایر حوزه‌های هوش مصنوعی (مانند منطق نمادین و سیستم‌های خبره) تمرکز کردند. اگرچه مینسکی و پاپرت در این زمینه اشتباه نکردند، اما نادیده گرفتن این احتمال بود که افزودن لایه‌های پنهان (Hidden Layers) به شبکه (یعنی حرکت به سمت شبکه‌های چند لایه یا یادگیری عمیق)، این محدودیت را از بین می‌برد.

علیرغم این اثر منفی، مینسکی و پاپرت به‌طور غیرمستقیم خدمت بزرگی کردند. آن‌ها با اثبات ریاضی محدودیت‌ها، جامعه را مجبور کردند تا به طور جدی به راه‌حل‌ها فکر کند. این نقد، محرکی شد تا دانشمندانی مانند جفری هینتون، یان لِکون، و یوشوا بنجیو در دهه‌های بعد، به توسعه شبکه‌های عصبی چند لایه و مهم‌تر از آن، الگوریتم‌های آموزشی برای این شبکه‌ها، مانند پس‌انتشار (Backpropagation)، ادامه دهند. در نهایت، این فصل نشان می‌دهد که چگونه یک نقد تند و دقیق ریاضی، در طول زمان، زمینه را برای یک پیشرفت بزرگ فراهم کرد.

الگوریتمی که به یک افسانه پایدار پایان داد

این فصل به یکی از نوآورانه‌ترین و پیچیده‌ترین الگوریتم‌ها در یادگیری ماشینی و ستون فقرات آموزش شبکه‌های عصبی عمیق می‌پردازد: الگوریتم پس‌انتشار خطا (Backpropagation). پس از فروکش کردن «زمستان هوش مصنوعی»، جامعه علمی متوجه شد که برای حل مسائل پیچیده، به شبکه‌های عصبی با چندین لایه پنهان (Deep Neural Networks) نیاز است. اما مسئله این بود: چگونه می‌توان خطای موجود در خروجی شبکه را به طور مؤثر به لایه‌های پنهان داخلی برگرداند تا وزن‌های هر نورون به درستی تنظیم شوند؟ این مسئله به عنوان “مسئله تخصیص اعتبار (Credit Assignment)” شناخته می‌شد.

پاسخ به این مسئله، در استفاده مجدد هوشمندانه از یک اصل اساسی در حسابان نهفته بود: قانون زنجیره‌ای (Chain Rule). قانون زنجیره‌ای روشی برای مشتق‌گیری توابع تو در تو است. الگوریتم پس‌انتشار با استفاده از این قانون، نرخ تغییر (گرادیان) تابع زیان نسبت به وزن‌های هر لایه را به صورت معکوس (از لایه خروجی به لایه‌های ورودی) محاسبه می‌کند.

این فصل توضیح می‌دهد که چگونه هر بار که یک نمونه داده از شبکه عبور می‌کند (گذر رو به جلو)، خروجی محاسبه می‌شود و زیان به دست می‌آید. سپس، در گذر رو به عقب (پس‌انتشار)، زیان محاسبه‌شده در خروجی به عقب باز می‌گردد. هر لایه، زیان دریافتی را با استفاده از مشتق‌های جزئی و قانون زنجیره‌ای به لایه‌های قبل از خود منتقل می‌کند و با استفاده از الگوریتم نزول گرادیان وزن‌های خود را تنظیم می‌کند. این فرآیند، اجازه می‌دهد تا خطای کلی به طور دقیق در میان میلیاردها پارامتر یک شبکه عصبی توزیع شود.

گرچه مفاهیم اصلی قانون زنجیره‌ای برای دهه‌ها شناخته شده بودند، اما «پُل وربوس» و «رونالد جی. ویلیامز» نقش‌های کلیدی در توسعه و تعمیم آن برای آموزش شبکه‌های چند لایه ایفا کردند. جفری هینتون و همکارانش نیز در دهه‌های ۱۹۸۰ و ۱۹۹۰ این روش را دوباره محبوب کردند. پس‌انتشار به اساسی‌ترین الگوریتم برای آموزش شبکه‌های عصبی عمیق تبدیل شد و در نهایت به افسانه محدودیت ذاتی شبکه‌های عصبی پایان داد.

چشمان یک ماشین

این فصل به نحوه وقوع انقلاب در حوزه بینایی کامپیوتر (Computer Vision) می‌پردازد که تا حد زیادی مدیون ظهور شبکه‌های عصبی پیچشی (Convolutional Neural Networks – CNNs) است. قبل از CNNها، تشخیص تصویر برای کامپیوترها یک چالش عظیم بود؛ ماشین‌ها باید به طور صریح برنامه‌ریزی می‌شدند تا لبه‌ها، گوشه‌ها و شکل‌ها را تشخیص دهند.

در مقابل، CNNها از ساختار بصری مغز پستانداران، به ویژه کار «دیوید هابل» و «تورستن ویسل» در مورد قشر بینایی (Visual Cortex) گربه و میمون، الهام گرفته‌اند. این محققان کشف کردند که سلول‌های قشر بینایی به دو نوع تقسیم می‌شوند: سلول‌های ساده (Simple Cells) که به ویژگی‌های بصری ساده مانند لبه‌ها و خطوط پاسخ می‌دهند و سلول‌های پیچیده (Complex Cells) که به محرک‌های پیچیده‌تر و موقعیت آن‌ها در میدان دید حساس هستند. این ساختار سلسله مراتبی، ایده اصلی CNNها شد.

این فصل نشان می‌دهد که چگونه CNNها از طریق پیچش (Convolution) عمل می‌کنند. یک فیلتر یا کِرنل (Kernel) از روی تصویر عبور کرده و ویژگی‌های محلی را استخراج می‌کند. لایه‌های اولیه ویژگی‌های ساده (لبه‌ها، رنگ‌ها) و لایه‌های عمیق‌تر ویژگی‌های پیچیده (چشم، گوش، چرخ) را یاد می‌گیرند. پس از لایه پیچش، یک لایه تجمعی (Pooling) می‌آید که ابعاد خروجی را کاهش می‌دهد (و اطلاعات محلی را حفظ می‌کند).

این معماری منجر به خلق مدل‌هایی مانند لِه‌نِت (LeNet) توسط یان لِکون در اواخر دهه ۱۹۸۰ و اوایل دهه ۱۹۹۰ برای تشخیص ارقام دست‌نویس شد. اما لحظه اوج این انقلاب در سال ۲۰۱۲ با ظهور آلکس‌نت (AlexNet) در چالش ImageNet فرا رسید. آلکس‌نت که یک CNN بسیار بزرگتر و عمیق‌تر بود و توسط جفری هینتون و شاگردانش توسعه یافت، با اختلاف فاحشی رکورد تشخیص تصویر را شکست. این موفقیت نشان داد که مقیاس‌پذیری و عمق دادن به شبکه‌ها (با کمک پردازنده‌های گرافیکی – GPUs) همان چیزی است که برای بینایی کامپیوتر لازم است و هوش مصنوعی را به سطح بالاتری برد.

سرزمین ناشناخته

این فصل به پیچیده‌ترین و جدیدترین چالش‌ها و اکتشافات در یادگیری ماشینی مدرن می‌پردازد؛ به ویژه در مورد شبکه‌های عصبی عمیق و مدل‌های زبانی بزرگ که به اصطلاح در قلمرو “سرزمین ناشناخته” (Terra Incognita) عمل می‌کنند. این قلمرو به جایی اشاره دارد که شواهد تجربی، تئوری‌های کلاسیک ریاضی یادگیری ماشینی را نقض کرده‌اند.

یکی از مهم‌ترین تناقضات، نقض مبادله بایاس-واریانس (Bias-Variance Trade-off) است. تئوری کلاسیک بیان می‌کند که هرچه پیچیدگی مدل (تعداد پارامترها) را افزایش دهیم، خطای مدل روی داده‌های آموزشی کاهش (کاهش بایاس) و خطای آن روی داده‌های آزمایشی افزایش می‌یابد (افزایش واریانس یا بیش‌برازش (Overfitting)). در این مدل کلاسیک، یک نقطه بهینه برای جلوگیری از بیش‌برازش وجود دارد.

اما پژوهش‌های جدید، به ویژه کار «میخائیل بلکین» و همکارانش، پدیده‌ای به نام نزول دوگانه (Double Descent) را کشف کردند. آن‌ها نشان دادند که پس از نقطه بیش‌برازش کلاسیک (که در آن خطای آزمایشی اوج می‌گیرد)، اگر پیچیدگی مدل یا تعداد پارامترها را بیش از حد افزایش دهیم (به طوری که مدل بتواند تمامی داده‌های آموزشی را به طور کامل حفظ کند)، خطای آزمایشی دوباره شروع به کاهش می‌کند و عملکرد مدل بهبود می‌یابد. این رفتار جدید در رژیم فراپارامتری (Over-parameterized) کاملاً برخلاف درک تئوریک گذشته بود.

این فصل نشان می‌دهد که چگونه بزرگ‌ترین مدل‌های هوش مصنوعی امروزی (مانند LLMها با تریلیون‌ها پارامتر) در این رژیم فراپارامتری کار می‌کنند و رفتارهایی مانند ظهور (Emergence) قابلیت‌های پیش‌بینی‌نشده را از خود نشان می‌دهند. این امر یک شکاف عمیق بین تئوری (ریاضیات) و تجربه (آزمایش‌ها) در ML ایجاد کرده است. این فصل نتیجه می‌گیرد که برای درک کامل این ماشین‌های جدید، مانند در دوران فیزیک کوانتومی که اصول فیزیک کلاسیک شکسته شد، به چارچوب‌های تئوریک ریاضی جدیدی نیاز داریم که بتوانند رفتار مدل‌های فراپارامتری را توضیح دهند.

نکات کلیدی

ریاضیات زیربنایی: هسته اصلی هوش مصنوعی مدرن، نه یک فناوری جادویی، بلکه یک تلفیق ظریف از ریاضیات کلاسیک شامل جبر خطی، حسابان، احتمالات و آمار، و نظریه بهینه‌سازی است.
اهمیت نزول گرادیان: تمامی شبکه‌های عصبی عمیق امروزی، از اولین نورون‌های مصنوعی تا مدل‌های زبانی بزرگ، برای یادگیری وزن‌های خود از اشکال مختلف الگوریتم نزول گرادیان (از جمله LMS) برای به حداقل رساندن تابع زیان استفاده می‌کنند.
نقش جبر خطی و بردارها: تمام داده‌های دنیای واقعی برای پردازش توسط ماشین به بردارها و ماتریس‌ها ترجمه می‌شوند. مفاهیم انتزاعی مانند شباهت و فاصله، به صورت حاصل‌ضرب داخلی و فاصله اقلیدسی بین بردارها تعریف می‌شوند.
قضیه بیز و استدلال احتمالی: یادگیری ماشینی اساساً نوعی استدلال احتمالی است. قضیه بیز و توابع توزیع احتمالاتی (مانند گوسی) ابزارهای اصلی برای به‌روزرسانی باورها و مدیریت عدم قطعیت در داده‌ها هستند.
انقلاب شبکه‌های عمیق: پیشرفت‌های کلیدی مانند اختراع الگوریتم پس‌انتشار خطا (با تکیه بر قانون زنجیره‌ای حسابان) و توسعه شبکه‌های عصبی پیچشی (CNNs) (با الهام از قشر بینایی مغز)، محدودیت‌های شبکه‌های تک لایه را شکست و عصر یادگیری عمیق را آغاز کرد.
تناقضات مدرن و سرزمین ناشناخته: در حال حاضر، بزرگترین مدل‌های هوش مصنوعی (در رژیم فراپارامتری) قوانینی مانند مبادله بایاس-واریانس را نقض می‌کنند و پدیده نزول دوگانه را از خود نشان می‌دهند. این امر نیاز به یک انقلاب تئوریک جدید در ریاضیات یادگیری ماشینی را برای درک کامل پتانسیل و محدودیت‌های AI نشان می‌دهد.

جمع‌بندی نهایی

این کتاب در جمع‌بندی نهایی خود، به خواننده یادآوری می‌کند که هوش مصنوعی مدرن، با تمام قابلیت‌های شگفت‌انگیز خود، بر مفاهیم ریاضیاتی بنا شده است که در دسترس و قابل فهم هستند. از سادگی یک معادله خطی در پرسِپترون تا پیچیدگی نزول گرادیان در یک فضای هزاران بُعدی، این ریاضیات، ستون اصلی قابلیت‌های ماشین برای یادگیری و تصمیم‌گیری است.

با این حال، نتیجه‌گیری کتاب فراتر از تجلیل از این سادگی است. نویسنده با تأکید بر تأثیرات هوش مصنوعی بر زندگی روزمره (تصمیم‌گیری‌های حیاتی مانند وام بانکی، تشخیص پزشکی و آزادی مشروط) ، وظیفه‌ای را بر دوش خواننده می‌گذارد: درک ریاضیات هوش مصنوعی برای مشارکت فعال در بحث‌های پیرامون نحوه ساخت، تنظیم و استقرار این فناوری.

لحن نهایی کتاب به سمت یک رویکرد محتاطانه و در عین حال هیجان‌انگیز حرکت می‌کند. در حالی که مدل‌هایی مانند ChatGPT و Minerva (که پاسخ‌هایی استدلالی به مسائل ریاضی می‌دهد) نشان می‌دهند که ماشین‌ها در حال نزدیک شدن به توانایی‌های شناختی انسان هستند، فصل آخر بر این واقعیت تأکید می‌کند که ما به یک مرز نظری رسیده‌ایم. شواهد تجربی (مانند نزول دوگانه) نشان می‌دهند که شبکه‌های عصبی عمیق، رفتاری را از خود بروز می‌دهند که تئوری‌های ریاضی موجود قادر به توضیح کامل آن نیستند. در نهایت، این کتاب نه تنها راز «چگونگی یادگیری ماشین‌ها» را با تمرکز بر ریاضیات پشت آن برملا می‌کند، بلکه با اشاره به مرزهای دانشی که هنوز کشف نشده‌اند، جامعه را به مشارکت در یک انقلاب علمی جدید در تلاش برای درک کامل «نورون‌های مصنوعی» فرا می‌خواند. درک این مرزها برای درک نه تنها قدرت، بلکه محدودیت‌ها، تعصبات و ریسک‌های اخلاقی هوش مصنوعی حیاتی است.

دانلود کامل کتاب:

Why Machines Learn- The Elegant Math Behind Modern AI — Anil Ananthaswamy — PT, 2024 — Penguin Publishing Group دریافت