هوش مصنوعی روابط اشیا را درک می کند

شماره :
41404
آخرین به روزرسانی :
سه شنبه 1402/06/28 ساعت 16:36
دسته بندی

هوش مصنوعی روابط اشیا را درک می کند

یک مدل جدید یادگیری ماشینی می‌تواند ربات‌ها را قادر سازد تا تعاملات در جهان را به روشی که انسان‌ها انجام می‌دهند، درک کنند.

وقتی انسان به صحنه ای نگاه می کند، اشیا و روابط بین آنها را می بیند. بسیاری از مدل‌های یادگیری عمیق تلاش می‌کنند تا دنیا را اینگونه ببینند، زیرا آنها روابط درهم‌تنیده بین اشیاء را درک نمی‌کنند. بدون آگاهی از این روابط، رباتی که برای کمک به کسی در آشپزخانه طراحی شده است، در پیروی از دستوری مانند "کاردک را که در سمت چپ اجاق گاز قرار دارد بردارید و آن را روی تخته برش قرار دهید" مشکل خواهد داشت.

در تلاش برای حل این مشکل، محققان MIT مدلی را توسعه داده اند که روابط زیربنایی بین اشیاء در یک صحنه را درک می کند. مدل آنها روابط فردی را یکی یکی نشان می دهد، سپس این بازنمایی ها را برای توصیف صحنه کلی ترکیب می کند. این مدل را قادر می‌سازد تا تصاویر دقیق‌تری را از توضیحات متن تولید کند، حتی زمانی که صحنه شامل چندین شی است که در روابط مختلف با یکدیگر چیده شده‌اند.

این کار را می‌توان در شرایطی به کار برد که روبات‌های صنعتی باید وظایف پیچیده و چند مرحله‌ای دستکاری، مانند چیدن اقلام در انبار یا مونتاژ وسایل را انجام دهند. همچنین میدان را یک قدم به ماشین‌هایی نزدیک‌تر می‌کند که می‌توانند مانند انسان‌ها از محیط خود بیاموزند و با آن تعامل داشته باشند.

چارچوبی که محققان توسعه داده‌اند می‌تواند تصویری از یک صحنه بر اساس توصیف متنی اشیا و روابط آنها ایجاد کند. سیستم آنها این جملات را به دو قسمت کوچکتر تقسیم می کند که هر رابطه فردی را توصیف می کند. سپس هر قسمت را به طور جداگانه مدل می کند. بعد این قطعات از طریق یک فرآیند بهینه سازی ترکیب می شوند که تصویری از صحنه ایجاد می کند.

محققان از یک تکنیک یادگیری ماشینی به نام مدل‌های مبتنی بر انرژی برای نشان دادن روابط جسمی فردی در توصیف صحنه استفاده کردند. این تکنیک آن‌ها را قادر می‌سازد تا از یک مدل مبتنی بر انرژی برای رمزگذاری هر توصیف رابطه‌ای استفاده کنند و سپس آن‌ها را به گونه‌ای با هم ترکیب کنند که همه اشیا و روابط را استنتاج کنند.

این سیستم همچنین به صورت معکوس کار می کند - با توجه به یک تصویر، می تواند توضیحات متنی را پیدا کند که با روابط بین اشیاء در صحنه مطابقت دارد.

علاوه بر این، از مدل آنها می توان برای ویرایش یک تصویر با مرتب کردن مجدد اشیاء در صحنه استفاده کرد تا با توضیحات جدید مطابقت داشته باشند.

215000909.002

X