قصد داریم مقالات تخصصی هوش مصنوعی، گراف و حوزه داده را به مرور در بخش مقالات انگلیسی قرار دهیم. حتما بازخورد شما، ما را در این مسیر یاری خواهد کرد.
سعی می کنیم سرفصل مقالات را بر اساس آخرین ترندهای هوش مصنوعی 2025 گارتنر قرار دهیم. در این مقاله رفتیم سراغ ترند هوش تجسم یافته(Embodied AI)
در این بخش یکی از مقالات کاربردی عنوان زیر است:
Scene-Driven Multimodal Knowledge GraphConstruction for Embodied AI

خلاصه فارسی مقاله
هوش تجسمیافته شاخهای از هوش مصنوعی است که به توانایی عاملهای هوشمند (مثل رباتها) در تعامل با محیط واقعی میپردازد. برای تصمیمگیری درست در چنین محیطهایی، عاملها نیازمند دانش صحنه هستند؛ دانشی که شامل دو بخش اصلی است:
- دانش ادراکی (Perceptual): ویژگیهای قابل مشاهدهی اشیاء، انسانها و روابط آنها (مثل نوع، موقعیت و وضعیت).
 - دانش ادراکی-مفهومی (Apperceptive): شامل مفاهیم انتزاعیتر مانند کاربرد، قوانین، احساسات و نیت.
 
روشهای سنتی برای کسب این دانش یا بر پایگاههای دانش عمومی (مانند WordNet، ConceptNet) تکیه دارند که ناکامل و پراکندهاند، یا بر مدلهای ازپیشآموزشدیده که دانششان مبهم، غیرقابلتوضیح و بهسختی قابلبهروزرسانی است.
نوآوری مقاله
نویسندگان برای رفع این چالشها روش Scene-MMKG را پیشنهاد میکنند که مزایای هر دو رویکرد نمادین و مبتنی بر مدلهای زبانی بزرگ را ترکیب میکند:
- طراحی اسکیماهای صحنهمحور با کمک پرامپتانجینیرینگ روی LLMها.
 - استخراج دانش مفهومی از پایگاههای موجود و جمعآوری دانش ادراکی از دادههای چندوجهی (تصویر، متن، ویدئو).
 - بهکارگیری سازوکارهای کنترل کیفیت (مثل سلسلهمراتبدهی ویژگیها و ادغام مفهومی) برای رفع مشکلات long-tail.
 
پیادهسازی
برای ارزیابی، یک گراف دانش به نام ManipMob-MMKG ساخته شد که بر صحنههای داخلی (مانند خانه و دفتر) و دو قابلیت اصلی رباتها (حرکت و دستکاری اشیا) تمرکز دارد. این پایگاه شامل:
- بیش از 11,000 گره، 178,000 رابطه و 34,000 تصویر است.
 - هزینه و زمان ساخت بسیار کمتر از پایگاههای مشابه است (۵ نفر طی ۴ روز).
 

نتایج تجربی
روش Scene-MMKG در دو وظیفهی تجسمیافته آزمایش شد:
- هدایت مبتنی بر زبان و تصویر (VLN)
 - یافتن اشیای سهبعدی از روی توصیف زبانی (3D Object Grounding)
 
نتایج نشان داد که استفاده از ManipMob-MMKG:
- بهبود چشمگیری در معیارهای دقت و کارایی نسبت به روشهای بدون دانش یا با دانش عمومی دارد.
 - دادههای چندوجهی (تصویر+متن) عملکرد بهتری نسبت به دادههای تکوجهی (فقط متن) ایجاد میکنند.
 - ماژول حذف نویز چندوجهی (Multimodal Denoising) کیفیت تصمیمگیری را افزایش میدهد.
 
نتیجهگیری
این مقاله یک چارچوب نوین برای ساخت گرافهای دانش چندوجهی صحنهمحور معرفی میکند که میتواند به طور مؤثری هوش رباتها را در محیطهای واقعی ارتقا دهد. روش پیشنهادی در مقایسه با پایگاههای دانش سنتی یا مدلهای پارامتریک، هم از نظر کیفیت دانش و هم از نظر کارایی ساخت، برتری دارد و میتواند مبنایی برای توسعهی سیستمهای Embodied AI در آینده باشد.
فایل کامل مقاله مخصوص کاربران سایت هوش هاب