ساخت گراف دانش چندوجهی مبتنی بر صحنه برای هوش تجسم‌یافته

قصد داریم مقالات تخصصی هوش مصنوعی، گراف و حوزه داده را به مرور در بخش مقالات انگلیسی قرار دهیم. حتما بازخورد شما، ما را در این مسیر یاری خواهد کرد.

سعی می کنیم سرفصل مقالات را بر اساس آخرین ترندهای هوش مصنوعی 2025 گارتنر قرار دهیم. در این مقاله رفتیم سراغ ترند هوش تجسم یافته(Embodied AI)

در این بخش یکی از مقالات کاربردی عنوان زیر است:

Scene-Driven Multimodal Knowledge GraphConstruction for Embodied AI

خلاصه فارسی مقاله

هوش تجسم‌یافته شاخه‌ای از هوش مصنوعی است که به توانایی عامل‌های هوشمند (مثل ربات‌ها) در تعامل با محیط واقعی می‌پردازد. برای تصمیم‌گیری درست در چنین محیط‌هایی، عامل‌ها نیازمند دانش صحنه هستند؛ دانشی که شامل دو بخش اصلی است:

دانش ادراکی (Perceptual): ویژگی‌های قابل مشاهده‌ی اشیاء، انسان‌ها و روابط آن‌ها (مثل نوع، موقعیت و وضعیت).
دانش ادراکی-مفهومی (Apperceptive): شامل مفاهیم انتزاعی‌تر مانند کاربرد، قوانین، احساسات و نیت.

روش‌های سنتی برای کسب این دانش یا بر پایگاه‌های دانش عمومی (مانند WordNet، ConceptNet) تکیه دارند که ناکامل و پراکنده‌اند، یا بر مدل‌های ازپیش‌آموزش‌دیده که دانششان مبهم، غیرقابل‌توضیح و به‌سختی قابل‌به‌روزرسانی است.

نوآوری مقاله

نویسندگان برای رفع این چالش‌ها روش Scene-MMKG را پیشنهاد می‌کنند که مزایای هر دو رویکرد نمادین و مبتنی بر مدل‌های زبانی بزرگ را ترکیب می‌کند:

طراحی اسکیماهای صحنه‌محور با کمک پرامپت‌انجینیرینگ روی LLMها.
استخراج دانش مفهومی از پایگاه‌های موجود و جمع‌آوری دانش ادراکی از داده‌های چندوجهی (تصویر، متن، ویدئو).
به‌کارگیری سازوکارهای کنترل کیفیت (مثل سلسله‌مراتب‌دهی ویژگی‌ها و ادغام مفهومی) برای رفع مشکلات long-tail.

پیاده‌سازی

برای ارزیابی، یک گراف دانش به نام ManipMob-MMKG ساخته شد که بر صحنه‌های داخلی (مانند خانه و دفتر) و دو قابلیت اصلی ربات‌ها (حرکت و دست‌کاری اشیا) تمرکز دارد. این پایگاه شامل:

بیش از 11,000 گره، 178,000 رابطه و 34,000 تصویر است.
هزینه و زمان ساخت بسیار کمتر از پایگاه‌های مشابه است (۵ نفر طی ۴ روز).

نتایج تجربی

روش Scene-MMKG در دو وظیفه‌ی تجسم‌یافته آزمایش شد:

هدایت مبتنی بر زبان و تصویر (VLN)
یافتن اشیای سه‌بعدی از روی توصیف زبانی (3D Object Grounding)

نتایج نشان داد که استفاده از ManipMob-MMKG:

بهبود چشمگیری در معیارهای دقت و کارایی نسبت به روش‌های بدون دانش یا با دانش عمومی دارد.
داده‌های چندوجهی (تصویر+متن) عملکرد بهتری نسبت به داده‌های تک‌وجهی (فقط متن) ایجاد می‌کنند.
ماژول حذف نویز چندوجهی (Multimodal Denoising) کیفیت تصمیم‌گیری را افزایش می‌دهد.

نتیجه‌گیری

این مقاله یک چارچوب نوین برای ساخت گراف‌های دانش چندوجهی صحنه‌محور معرفی می‌کند که می‌تواند به طور مؤثری هوش ربات‌ها را در محیط‌های واقعی ارتقا دهد. روش پیشنهادی در مقایسه با پایگاه‌های دانش سنتی یا مدل‌های پارامتریک، هم از نظر کیفیت دانش و هم از نظر کارایی ساخت، برتری دارد و می‌تواند مبنایی برای توسعه‌ی سیستم‌های Embodied AI در آینده باشد.

فایل کامل مقاله مخصوص کاربران سایت هوش هاب

09bcc1278fd1b203eac751f84cab5b8a دریافت